Распознавание речи
Распознавание речи, Speech To Text (STT), Automatic Speech Recognition (ASR) — это преобразование речевого сигнала в текстовое представление.
Примеры использования:
- Телефонные роботы.
- Речевая аналитика.
- Голосовой ассистент.
- Контроль качества.
Техническая информация
Поддерживаемые форматы
- MuLaw
- ALaw
- Linear16
- RawOpus
- MP3
Каналы
Поддерживаем одно- и двухканальные аудио.
Поддерживаемые Sample Rate
- 8 000
- 11 000
- 12 000
- 16 000
- 22 000
- 24 000
- 32 000
- 44 000
- 48 000
- 96 000
Opus поддерживает только Sample Rate, указанные на официальном сайте Opus.
Интеграция с Asterisk
На данный момент мы не поддерживаем uniMRCP и используем собственный модуль для интеграции с Asterisk.
Точность распознавания
Для оценки точности распознавания используется метрика WER
— Word Error Rate.
WER
показывает, насколько распознанный текст отличается от оригинала. Значения:
- При распознавании шумных GSM-аудио —
± 18
. - При отсутствии явных шумов —
< 10
.
WER
может меняться в зависимости от тематики распознавания.
Модели и дообучение
Наши модели обучались на русскоязычных телефонных разговорах в колл-центрах и умеют распознавать большую часть вокабуляра в этой предметной области.
С вашего разрешения мы можем частично размечать ваши данные с целью дообучения наших моделей по недостающим тематикам.
Разметка и сбор данных проводятся на стороне нашего сервиса.
Доступ к API
Зарегистрируйтесь и создайте ключ, чтобы использовать API.