Распознавание речи

Распознавание речи, Speech To Text (STT), Automatic Speech Recognition (ASR) — это преобразование речевого сигнала в текстовое представление.

Примеры использования:

Телефонные роботы.
Речевая аналитика.
Голосовой ассистент.
Контроль качества.

Техническая информация

Поддерживаемые форматы

MuLaw
ALaw
Linear16
RawOpus
MP3

Каналы

Поддерживаем одно- и двухканальные аудио.

Поддерживаемые Sample Rate

8 000
11 000
12 000
16 000
22 000
24 000
32 000
44 000
48 000
96 000

Opus поддерживает только Sample Rate, указанные на официальном сайте Opus.

Интеграция с Asterisk

На данный момент мы не поддерживаем uniMRCP и используем собственный модуль для интеграции с Asterisk.

Точность распознавания

Для оценки точности распознавания используется метрика WER — Word Error Rate. Она показывает, насколько распознанный текст отличается от оригинала. Значения:

При распознавании шумных GSM-аудио — ± 18.
При отсутствии явных шумов — < 10.

WER может меняться в зависимости от тематики распознавания.

Модели и дообучение

Наши модели обучались на русскоязычных телефонных разговорах в колл-центрах и умеют распознавать большую часть вокабуляра в этой предметной области.

С вашего разрешения мы можем частично размечать ваши данные с целью дообучения наших моделей по недостающим тематикам.

Разметка и сбор данных проводятся на стороне нашего сервиса.

Доступ к API

Зарегистрируйтесь и создайте ключ, чтобы использовать API.