Отложенное распознавание речи
Описание
Отличие отложенного распознавания от потокового — время обработки и стоимость: отложенное распознавание занимает до 24 часов, а секунда распознавания стоит в 4 раза меньше.
Результаты обработки хранятся в системе в течение 5 дней после завершения распознавания.
Параметры запроса
| Поле | Тип | Описание |
|---|---|---|
| config | RecognitionConfig | Настройки распознавания. |
| audio | RecognitionAudio | Аудио для распознавания. В отличие от RecognizeRequest, можно использовать URI-ресурс, загруженный через S3-совместимое хранилище. |
| group | string | Название группы, к которой относится операция. Группы позволяют логически объединять операции распознавания, например, для последующей фильтрации. Допустима пустая строка ''. |
RecognitionConfig
Настройки распознавания.
| Поле | Тип | Возможные значения | Описание |
|---|---|---|---|
| encoding | AudioEncoding | Обязательный параметр. Формат аудио. Определяет и контейнер, и кодек. Должен задаваться явно. Как правильно указать encoding | |
| sample_rate_hertz | uint32 | Значение должно соответствовать частоте дискретизации аудио — 8000, 11025, 12000, 16000, 22050, 24000, 32000, 44100, 48000, 96000. | Обязательный параметр. Частота дискретизации в герцах. |
| num_channels | uint32 | Значение должно соответствовать количеству каналов в аудио — 1 или 2. | Обязательный параметр. Количество каналов в аудио. |
| max_alternatives | uint32 | Значение по умолчанию — 1.[1, 15]. | Опциональный параметр. Максимальное количество альтернатив для финальных и промежуточных результатов. |
| profanity_filter | bool |
| Опциональный параметр. Скрыть ненормативную лексику. Пример скрытого слова: «б****». |
| speech_contexts | SpeechContext | Опциональный параметр. Контекст для распознавания. | |
| enable_automatic_punctuation | bool |
Значение по умолчанию — | Опциональный параметр. Добавить пунктуацию (запятые, точки и знаки вопроса) и прописные буквы. |
| do_not_perform_vad | bool |
Значение по умолчанию — | Опциональный параметр. Отключить разбиение текста на фразы. |
| vad_config | VoiceActivityDetectionConfig | Опциональный параметр. Настройки разбиения на фразы. | |
| enable_denormalization | bool |
Значение по умолчанию — | Опциональный параметр. Примеры:
|
| enable_sentiment_analysis | bool | Значение по умолчанию — false. | Опциональный параметр. β Определить вероятность негативных и позитивных эмоций. Используется для каждой финальной гипотезы. |
| enable_gender_identification | bool | Значение по умолчанию — false. | Опциональный параметр. β Определить вероятность пола говорящего: мужской или женский. Используется для каждой финальной гипотезы. |
RecognitionAudio
Аудио для распознавания.
| Поле | Тип | Возможные значения | Описание |
|---|---|---|---|
| content | bytes | Аудиофайл. | Обязательный, если не указан uri. Исходное аудио целиком. |
| uri | string | storage://s3.api.tinkoff.ai/inbound/<имя_файла>. | Обязательный, если не указан content. URI исходного аудио. Подробнее |
RecognitionConfig.SpeechContext
Контекст для распознавания. С его помощью можно повысить или понизить вероятность распознавания фраз — например, можно указать имена, узкоспециализированные термины, названия брендов.
| Поле | Тип | Описание | |
|---|---|---|---|
| phrases | SpeechContextPhrase | Опциональный параметр. Фразы для контекста. | |
| speech_context_dictionary_id | string | Значение, полученное при создании словаря. | Опциональный параметр. Идентификатор заранее подготовленного контекстного словаря на стороне облака VoiceKit. Подробнее про контекстный словарь. |
SpeechContext.SpeechContextPhrase
Фраза для контекста.
| Тип | Возможные значения | Описание | |
|---|---|---|---|
| text | string | Не рекомендуется указывать фразы длиной меньше 5 символов. | Опциональный параметр. Текст фразы на русском языке в нижнем регистре. |
| score | float | Значение по умолчанию ― 1.0. Этого достаточно, чтобы фраза распознавалась с большей вероятностью, чем фраза не из контекста. Диапазон значений ― [-10.0, 10.0]. | Опциональный параметр. Вес фразы. Чем больше вес, тем выше вероятность распознавания фразы. Если указать отрицательное значение, вероятность распознавания фразы или слова ниже. |
RecognitionConfig.VoiceActivityDetectionConfig
Настройки определения тишины в аудио (VAD).
| Поле | Тип | Описание | |
|---|---|---|---|
| silence_duration_threshold | float | Значение по умолчанию — 0.6. | Опциональный параметр. Длительность паузы в секундах, после которой фраза считается завершенной. |
| silence_prob_threshold | float | Значение по умолчанию — 0.9. | Опциональный параметр. Вероятность определения тишины. Фрагмент аудио считается тишиной, если она определилась с вероятностью выше этого значения. |
Параметры ответа
AudioEncoding
Формат аудио. Определяет и контейнер, и кодек. Подробнее о PCM и LPCM.
| Имя | Описание |
|---|---|
| LINEAR16 | LPCM без заголовка, битовая глубина ― 16 бит. |
| MULAW | PCM без заголовков в распределении μ-law (PCMU), битовая глубина ― 8 бит. |
| ALAW | PCM без заголовков в распределении a-law (PCMA), битовая глубина ― 8 бит. |
| RAW_OPUS | Фреймы Opus, запакованные в сообщения Protobuf. Каждый фрейм должен быть запакован в поле content сообщения RecognitionAudio. При этом каждый фрейм нужно отправлять так, как он был закодирован ― не нужно объединять несколько фреймов в один. |
| MPEG_AUDIO | MPEG |
| ADTS_AAC | AAC аудио в ADTS потоке. |
| RAW_AAC_LC | AAC LC (Low Complexy) фреймы, запакованные в сообщения Protobuf. Поддерживается только в стриминговых методах. Важно Как и в RAW_OPUS-формате, каждый фрeйм должен отправляться отдельном сообщении. |
| RAW_ER_AAC_LD | ER AAC LD фреймы, запакованные в сообщения Protobuf. Поддерживается только в стриминговых методах. Важно Как и в RAW_OPUS-формате, каждый фрeйм должен отправляться в отдельном сообщении. |