Речевая аналитика на Open Source

✖

RealTime в Asterisk: архитектура и конфигурация

RealTime в Asterisk: архитектура и конфигурация с 5 октября по 9 октября

Количество
свободных мест

8 Записаться

Курсы по Mikrotik MTCNA

Курсы по Mikrotik MTCNA с 6 апреля по 10 апреля

Количество
свободных мест

7 Записаться

Курс по Zabbix

Zabbix: мониторинг Asterisk и VoIP с 7 сентября по 11 сентября

Количество
свободных мест

8 Записаться

- Услуги
  
  Услуги
  
  Решаем Ваши бизнес-задачи с помощью IT-технологий. Знаем, как сделать лучше, быстрее и дешевле. Наш опыт – на службе Вашего бизнеса.
  
  Интеграция Asterisk с Active Directory Ip-телефония для удаленных сотрудников DECT разведка Проектирование и настройка сети Предпроектный аудит Монтаж СКС Аудит IP-ATC
  
  Приоритезация трафика QoS Защита IP-ATC Запись IVR Модернизация АТС Курсы по Asterisk Установка Asterisk
- База знаний
  
  База знаний
  
  Не все герои носят плащи. Сотни техических статей, написанных инженерами нашей компании. Делимся опытом и своими знаниями со всем сообществом.
  
  DECT Linux Вспомогательный софт при работе с Asterisk Интеграция с CRM и другими системами Интеграция с другими АТС Использование Elastix Использование FreePBX Книга
  
  Мониторинг и траблшутинг Настройка Asterisk Настройка IP-телефонов Настройка VoIP-оборудования Новости и Статьи Подключение операторов связи Разработка под Asterisk Установка Asterisk
- Функции
  
  Функции
  
  Сотни функций и возможностей Asterisk помогут вывести коммуникации в Вашей компании на принципиально новый уровень. Технические ограничения – фантазия Заказчика.
  
  Номерные планы Панель управления Безопасность Детализация звонков Транзитная запись раговоров Подключение к GSM Обратный звонок Парковка вызова Панель оператора Масштабируемость Конференцсвязь Видеозвонки
  
  Прием факсов на E-Mail Очереди звонков Интеграция с CRM Голосовое меню Группы вызова Гео номера Голосовая почта Защита от прослушки Снижение затрат Сохранение номера Объединение офисов Запись разговоров
- IP-АТС
  
  IP-АТС
  
  Вы платите за систему, которая будет полностью соответствовать Вашим ожиданиям, требованиям и будет драйвером роста Вашего бизнеса
  
  Собственная IP-АТС на базе Asterisk vs облачная АТС Малый Бизнес Средний Бизнес Крупный Бизнес Индивидуальный проект Техническая поддержка
  
  IP-телефония + CRM Колл-Центр
- Колл-центр
  
  Колл-центр
  
  Идти в ногу со временем или оставаться на старых технологиях? Такой вопрос не стоит перед нашими клиентами. Решаем самые смелые задачи для Колл-Центров. Строим с нуля или работаем с существующими.
  
  Запись экранов операторов Speech Analytics Статистика и аналитика Мониторинг KPI Колл-Центра Компоненты решений Схемы и решения
  
  Супервайзер системы Предиктивный обзвон Внедрение call-центров Рабочее место оператора call-центра
- CRM
  
  CRM
  
  Поместите свой бизнес в эпицентр продаж. Интеграция IP-телефонии и CRM даст новый и мощный импульс Вашему Отделу Продаж и выведет компанию на три шага впереди конкурентов.
  
  Новые возможности 1C:CRM SalesMan CRM Bitrix24 AmoCRM Интеграция телефонии и CRM
- Номера
  
  Номера
  
  Подбираем для клиентов такие тарифы, которые ему редко получится найти на рынке самостоятельно. Работаем с 100+ операторов связи в интересах клиента.
  
  Подключение FMC Подключение Skype Номера регионов РФ Безлимитные тарифы Международная связь Номера в коде 495/499
  
  Номера в коде 8-800 Исходящая телефонная связь
- Продукты
  
  Продукты
  
  Разработки, созданные нашей командой под запросы клиентов. Не отказывайтесь от инноваций. Мы поможем идти с ногу со временем.
  
  voxservice SIP3 VoxDistro Автоконфиг Коллтрекинг Кластеризация серверов Asterisk
  
  ПО для Колл-центров CallForce Телефонная книга CallMetrix
- Обучение
  
  Обучение
  
  Умные всю жизнь учатся, а остальные всегда все и так знают. Мы проводим обучение более 8 лет и выпустили более 1000 специалистов по Asterisk и Mikrotik. Проводим ежегодную конференцию Asterisk.
  
  Каталог выступлений Вебинары Курсы Mikrotik Конференция по Asterisk Курсы Asterisk
- Внедрение
  
  Внедрение
  
  Купить наш опыт дешевле, чем набивать свои шишки. Мы реализовали более 800 проектов и накопили экспертизу для того, чтобы идеально выполнить Ваш проект.
  
  Антисанкционный Asterisk Выбор сервера для ip-телефонии Поставка оборудования Бесплатная техподдержка Документация на оборудование Паспорт проекта
  
  Обучение Этапы работ по внедрению IP-телефонии Asterisk Комплексное внедрение
- Оборудование
  
  Оборудование
  
  Правильный выбор оборудования позволяет сэкономить от 20 до 50% бюджета телефонии. Мы предельно внимательно подойдем к выбору «железа» в Ваш проект.
  
  GSM-шлюзы Аудиоконференцсвязь Видеоконференцсвязь Дополнительное оборудование DECT IP-телефоны VoIP-шлюзы
  
  Аналоговые платы Аналоговые телефоны Гарнитуры Серверы Сетевое оборудование Цифровые платы
- Цены
  
  Цены
  
  Наши цены доступны не только для Москвы, но и для регионов. А вложения в нашу экспертизу обычно окупаются за несколько месяцев.
  
  Цены на техническую поддержку Тарифы на связь
- О нас
  
  О нас
  
  Работаем с 2011 года. Собрали отличную команду реальных фанатов своего дела. Подходим к работе с душой и ответственностью.
  
  Партнерская программа Наши клиенты Собственные разработки Рекомендательные письма Контакты
0

У нас есть речевая аналитика дома: как обогнать коммерческие API и не разорится

ГлавнаяУ нас есть речевая аналитика дома: как обогнать коммерческие API и не разорится

Дата записи: 27 сентября, 2025

Доклад

Дмитрий Шатнёв

У нас есть речевая аналитика дома: как обогнать коммерческие API и не разорится

Ежедневно в мире генерируются колоссальные объемы аудиоданных. Крупные корпорации записывают сотни часов разговоров в сутки, а если просуммировать записи малого и среднего бизнеса, получится гигантский массив информации. В этих данных скрыта огромная ценность для аналитики, но обрабатывать их вручную — задача за гранью реальности. Первое решение, которое обычно приходит в голову, — купить готовый инструмент у крупных игроков рынка, вроде Google, Amazon или отечественных ИТ-гигантов.

Такая стратегия имеет право на жизнь, но она сразу упирается в серьезные ограничения. Самое очевидное — конфиденциальность. Для банков, медицинских центров или госсектора передача данных во внешние облака часто просто запрещена. Кроме того, облачные API — это всегда «черный ящик». Если система ошиблась и приписала мат оператору вместо клиента, исправить это внутри закрытого сервиса практически невозможно. Именно поэтому построение собственной речевой аналитики на базе открытых решений (Open Source) — это не просто экономия, а вопрос контроля и качества. Особенно актуально это становится, когда в компании активно используется Ip-телефония для удаленных сотрудников, генерирующая постоянный поток звонков.

Почему Open Source выигрывает у коммерческих API

Главная проблема готовых сервисов — их универсальность. Они обучаются на «усредненных» данных и часто пасуют перед специфической лексикой, профессиональным сленгом или плохим качеством связи. Открытые решения позволяют залезть «под капот» и адаптировать систему под конкретные задачи. Перед внедрением таких инструментов полезно провести Предпроектный аудит, чтобы точно понимать требования к инфраструктуре и объемы данных.

Основные преимущества собственного решения:

Полная безопасность: все данные остаются внутри периметра компании, ни один байт не уходит на сторонние серверы.
Гибкая настройка: возможность дообучить модели на специфическом словаре (медицина, юриспруденция, промышленность).
Прозрачность: вы точно знаете, почему система приняла то или иное решение, и можете поправить алгоритм в случае ошибок.
Экономия на масштабе: при больших объемах аудио (тысячи часов) свои серверы обходятся значительно дешевле, чем поминутная тарификация облаков.

Когда в компании уже выполнена Установка Asterisk, логичным следующим шагом становится настройка глубокого анализа разговоров. Это позволяет не просто хранить записи «на всякий случай», а превращать их в понятные отчеты и инсайты для бизнеса.

Из чего состоит современная речевая аналитика

Процесс обработки звука — это не одна большая программа, а цепочка (пайплайн) из нескольких специализированных модулей. Каждый из них отвечает за свой участок работы. Если один компонент устаревает, его можно заменить на более современный, не переделывая всю систему целиком.

Типовой процесс выглядит так:

VAD (Voice Activity Detection): находим в записи человеческую речь и отсекаем тишину или фоновый шум.
Извлечение эмбеддингов: превращаем голос в уникальный цифровой «отпечаток» — вектор.
Кластеризация (диаризация): группируем эти векторы, чтобы понять, сколько человек участвовало в разговоре и кто что сказал.
Постпроцессинг: финальная сборка данных, идентификация известных спикеров и формирование JSON-отчета.

На выходе мы получаем размеченный файл, где четко указано: с 10-й по 15-ю секунду говорил Менеджер, с 15-й по 20-ю — Клиент. Чтобы такая система работала без сбоев, важно предварительно провести Аудит IP-ATC, чтобы исключить проблемы с качеством записи на уровне телефонии.

Детекция речи (VAD): как не слышать лишнего

VAD — это фундамент. Если на этом этапе ошибиться и принять шум за речь (или наоборот), вся дальнейшая аналитика «поплывет». Старые методы, работавшие просто по уровню громкости, сегодня уже не актуальны — они слишком часто ошибаются в шумных офисах. Современный стандарт — это нейросетевые VAD-системы.

Существует несколько популярных решений, но у каждого есть свои особенности. Например, Silero VAD — очень быстрый инструмент, который работает практически везде, но на некоторых данных может выдавать нестабильный результат. Библиотека Pyannote часто грешит избыточной фильтрацией, из-за чего могут пропадать короткие реплики спикеров.

Одним из лучших решений сегодня считается модель FunASR VAD от Alibaba. Ее фишка в архитектуре со сверточной памятью. Она умеет работать в двух режимах:

Реальное время: смотрит только на то, что уже сказано (актуально для онлайн-трансляций).
Оффлайн-режим: анализирует контекст в обе стороны, что дает очень высокую точность детекции.

Эмбеддинги: цифровой паспорт голоса

Чтобы компьютер мог отличить одного человека от другого, голос нужно перевести на язык чисел. Для этого используются специальные нейросети-эмбеддеры. Они сжимают кусок аудио в вектор (обычно это 256 чисел), в котором зашифрованы тембр, высота и другие уникальные характеристики голоса.

Сейчас в топе открытых решений находится архитектура CAM++. Если говорить просто, это нейросеть из 100 слоев, внутри которой работают механизмы «внимания». Она умеет фокусироваться на самых важных акустических признаках, игнорируя посторонние шумы. Это позволяет создавать очень точные «цифровые слепки» голосов. Полученные данные можно использовать не только для разделения спикеров, но и для биометрии — например, чтобы система сразу узнавала VIP-клиента по голосу.

Ключевая задача: кто именно говорит?

Разделение записи на голоса называется диаризацией. Это самая сложная часть процесса. Если у нас есть стереозапись телефонного звонка, где оператор и клиент в разных каналах, задача решается легко. Но в моно-записях или конференциях всё гораздо интереснее.

Если мы заранее знаем количество участников, можно использовать простую кластеризацию, например, K-means. Система просто раскидывает все голосовые фрагменты на две кучки. Но в реальности мы редко знаем число спикеров заранее, да и условия записи могут меняться. Здесь на помощь приходит спектральная кластеризация.

Она работает сложнее: выстраивается матрица схожести всех кусочков аудио друг с другом. Чтобы повысить точность, применяют PLDA (вероятностный линейный дискриминантный анализ). Это математическая модель, которая помогает системе понять: «Этот человек звучит немного по-другому, потому что он злится или в трубке шум, но это все еще тот же самый спикер».

Для самых сложных случаев используется VBx-кластеризация:

Она базируется на скрытых марковских моделях.
Система рассматривает каждого спикера как отдельное «состояние».
Алгоритм постоянно пересчитывает вероятность: остался ли текущий спикер тем же или начал говорить кто-то другой.
Это позволяет с очень высокой точностью разделять даже быстро меняющиеся реплики в активном споре.

Инженеры, которые проходят Курсы по Asterisk, часто начинают именно с таких задач — как автоматизировать разбор сотен звонков, не тратя на это ресурсы живых людей.

Asterisk как платформа и богатство интерфейсов

Часто звучит скепсис: «Разве открытое решение может быть лучше, чем сервис от Google?». Статистика говорит, что может. Качество диаризации измеряется метрикой DER (Diarization Error Rate) — чем она ниже, тем лучше.

Тесты на независимых наборах данных показывают, что связка из хорошего VAD (например, FunASR), эмбеддера CAM++ и алгоритма VBx показывает результат на 2–5% лучше, чем облачные API крупнейших мировых и российских компаний. При этом по скорости такая система может обрабатывать аудио в десятки раз быстрее, чем оно длится в реальности. На одном современном сервере с хорошей видеокартой можно анализировать потоки данных в режиме 24/7 без каких-либо задержек.

Как бизнес может использовать эти данные

Речевая аналитика — это не только расшифровка текста. Когда у вас есть разделение по ролям и идентификация спикеров, открываются новые возможности для автоматизации:

Контроль качества: автоматический поиск конфликтных ситуаций или отклонений от скрипта.
Анализ эмоций: система видит, как меняется настроение клиента в процессе разговора. Это гораздо полезнее, чем простая Запись IVR, так как позволяет гибко менять сценарии обслуживания.
Автоматические отчеты: по итогам дня можно получать сводку: сколько времени менеджеры тратили на реальное общение, а сколько — на ожидание или технические паузы.
Безопасность: выявление посторонних людей в разговорах, где должна соблюдаться строгая конфиденциальность.

Заключение

Подводя итог, можно сказать, что Open Source технологии в речевой аналитике достигли того уровня, когда они не просто догоняют коммерческие продукты, а часто их превосходят. Для компании это означает возможность построить мощный инструмент, который полностью принадлежит ей, работает быстро и не требует ежемесячных выплат сторонним провайдерам. Это инвестиция в собственные технологии и безопасность данных, которая окупается за счет прозрачности и качества аналитики.

Еще выступления
Asterisk внутри k8s кластера: деплой, управление и мониторинг
Этикетка и принадлежность номера, обязанности и права
Asterisk OAuth 2.0: Современный метод аутентификаций для SIP
Решение проблем при распределённой работе с большими списками данных
Как организовать свою карусель

Ежегодная конференция по Asterisk 2026!

Билеты уже в продаже!

Остались вопросы?

Я - Игорь Кондрашин, менеджер компании Voxlink. Хотите уточнить детали или готовы оставить заявку? Укажите номер телефона, я перезвоню в течение 3-х секунд.