Skip to main content

Распознавание речи

Распознавание речи, Speech To Text (STT), Automatic Speech Recognition (ASR) — это преобразование речевого сигнала в текстовое представление.

Примеры использования:

  • Телефонные роботы.
  • Речевая аналитика.
  • Голосовой ассистент.
  • Контроль качества.

Техническая информация

Поддерживаемые форматы

  • MuLaw
  • ALaw
  • Linear16
  • RawOpus
  • MP3

Каналы

Поддерживаем одно- и двухканальные аудио.

Поддерживаемые Sample Rate

  • 8 000
  • 11 000
  • 12 000
  • 16 000
  • 22 000
  • 24 000
  • 32 000
  • 44 000
  • 48 000
  • 96 000

Opus поддерживает только Sample Rate, указанные на официальном сайте Opus.

Интеграция с Asterisk

На данный момент мы не поддерживаем uniMRCP и используем собственный модуль для интеграции с Asterisk.

Точность распознавания

Для оценки точности распознавания используется метрика WER — Word Error Rate.

WER показывает, насколько распознанный текст отличается от оригинала. Значения:

  • При распознавании шумных GSM-аудио — ± 18.
  • При отсутствии явных шумов — < 10.

WER может меняться в зависимости от тематики распознавания.

Модели и дообучение

Наши модели обучались на русскоязычных телефонных разговорах в колл-центрах и умеют распознавать большую часть вокабуляра в этой предметной области.

С вашего разрешения мы можем частично размечать ваши данные с целью дообучения наших моделей по недостающим тематикам.

Разметка и сбор данных проводятся на стороне нашего сервиса.

Доступ к API

Зарегистрируйтесь и создайте ключ, чтобы использовать API.

openapi@tbank.ru

АО «ТБанк» использует файлы «cookie» с целью персонализации сервисов и повышения удобства пользования веб-сайтом. «Cookie» представляют собой небольшие файлы, содержащие информацию о предыдущих посещениях веб-сайта. Если вы не хотите использовать файлы «cookie», измените настройки браузера.