Отложенное распознавание речи
Описание
Отличие отложенного распознавания от потокового — время обработки и стоимость: отложенное распознавание занимает до 24 часов, а секунда распознавания стоит в 4 раза меньше.
Параметры запроса
Поле | Тип | Описание |
---|---|---|
config | RecognitionConfig | Настройки распознавания. |
audio | RecognitionAudio | Аудио для распознавания. В отличие от RecognizeRequest , можно использовать URI-ресурс, загруженный через S3-совместимое хранилище. |
group | string | Название группы, к которой относится операция. Группы позволяют логически объединять операции распознавания, например, для последующей фильтрации. Допустима пустая строка '' . |
RecognitionConfig
Настройки распознавания.
Поле | Тип | Возможные значения | Описание |
---|---|---|---|
encoding | AudioEncoding | Обязательный параметр. Формат аудио. Определяет и контейнер, и кодек. Должен задаваться явно. Как правильно указать encoding | |
sample_rate_hertz | uint32 | Значение должно соответствовать частоте дискретизации аудио — 8000 , 11025 , 12000 , 16000 , 22050 , 24000 , 32000 , 44100 , 48000 , 96000 . | Обязательный параметр. Частота дискретизации в герцах. |
num_channels | uint32 | Значение должно соответствовать количеству каналов в аудио — 1 или 2 . | Обязательный параметр. Количество каналов в аудио. |
max_alternatives | uint32 | Значение по умолчанию — 1 .[1, 15] . | Опциональный параметр. Максимальное количество альтернатив для финальных и промежуточных результатов. |
profanity_filter | bool |
| Опциональный параметр. Скрыть ненормативную лексику. Пример скрытого слова: «б****». |
speech_contexts | SpeechContext | Опциональный параметр. Контекст для распознавания. | |
enable_automatic_punctuation | bool | Значение по умолчанию —
| Опциональный параметр. Добавить пунктуацию (запятые, точки и знаки вопроса) и прописные буквы. |
do_not_perform_vad | bool | Значение по умолчанию —
| Опциональный параметр. Отключить разбиение текста на фразы. |
vad_config | VoiceActivityDetectionConfig | Опциональный параметр. Настройки разбиения на фразы. | |
enable_denormalization | bool | Значение по умолчанию —
| Опциональный параметр. Примеры:
|
enable_sentiment_analysis | bool | Значение по умолчанию — false . | Опциональный параметр. β Определить вероятность негативных и позитивных эмоций. Используется для каждой финальной гипотезы. |
enable_gender_identification | bool | Значение по умолчанию — false . | Опциональный параметр. β Определить вероятность пола говорящего: мужской или женский. Используется для каждой финальной гипотезы. |
RecognitionAudio
Аудио для распознавания.
Поле | Тип | Возможные значения | Описание |
---|---|---|---|
content | bytes | Аудиофайл. | Обязательный, если не указан uri . Исходное аудио целиком. |
uri | string | storage://s3.api.tinkoff.ai/inbound/<имя_файла> . | Обязательный, если не указан content . URI исходного аудио. Подробнее |
RecognitionConfig.SpeechContext
Контекст для распознавания. С его помощью можно повысить или понизить вероятность распознавания фраз — например, можно указать имена, узкоспециализированные термины, названия брендов.
Поле | Тип | Описание | |
---|---|---|---|
phrases | SpeechContextPhrase | Опциональный параметр. Фразы для контекста. | |
speech_context_dictionary_id | string | Значение, полученное при создании словаря. | Опциональный параметр. Идентификатор заранее подготовленного контекстного словаря на стороне облака VoiceKit. Подробнее про контекстный словарь. |
SpeechContext.SpeechContextPhrase
Фраза для контекста.
Тип | Возможные значения | Описание | |
---|---|---|---|
text | string | Не рекомендуется указывать фразы длиной меньше 5 символов. | Опциональный параметр. Текст фразы на русском языке в нижнем регистре. |
score | float | Значение по умолчанию ― 1.0 . Этого достаточно, чтобы фраза распознавалась с большей вероятностью, чем фраза не из контекста. Диапазон значений ― [-10.0, 10.0] . | Опциональный параметр. Вес фразы. Чем больше вес, тем выше вероятность распознавания фразы. Если указать отрицательное значение, вероятность распознавания фразы или слова ниже. |
RecognitionConfig.VoiceActivityDetectionConfig
Настройки определения тишины в аудио (VAD).
Поле | Тип | Описание | |
---|---|---|---|
silence_duration_threshold | float | Значение по умолчанию — 0.6 . | Опциональный параметр. Длительность паузы в секундах, после которой фраза считается завершенной. |
silence_prob_threshold | float | Значение по умолчанию — 0.9 . | Опциональный параметр. Вероятность определения тишины. Фрагмент аудио считается тишиной, если она определилась с вероятностью выше этого значения. |
Параметры ответа
AudioEncoding
Формат аудио. Определяет и контейнер, и кодек. Подробнее о PCM и LPCM.
Имя | Описание |
---|---|
LINEAR16 | LPCM без заголовка, битовая глубина ― 16 бит. |
MULAW | PCM без заголовков в распределении μ-law (PCMU), битовая глубина ― 8 бит. |
ALAW | PCM без заголовков в распределении a-law (PCMA), битовая глубина ― 8 бит. |
RAW_OPUS | Фреймы Opus, запакованные в сообщения Protobuf. Каждый фрейм должен быть запакован в поле content сообщения RecognitionAudio . При этом каждый фрейм нужно отправлять так, как он был закодирован ― не нужно объединять несколько фреймов в один. |
MPEG_AUDIO | MPEG |
ADTS_AAC | AAC аудио в ADTS потоке. |
RAW_AAC_LC | AAC LC (Low Complexy) фреймы, запакованные в сообщения Protobuf. Поддерживается только в стриминговых методах. Важно Как и в RAW_OPUS-формате, каждый фрeйм должен отправляться отдельном сообщении. |
RAW_ER_AAC_LD | ER AAC LD фреймы, запакованные в сообщения Protobuf. Поддерживается только в стриминговых методах. Важно Как и в RAW_OPUS-формате, каждый фрeйм должен отправляться в отдельном сообщении. |