Отложенное распознавание речи

Описание

Отличие отложенного распознавания от потокового — время обработки и стоимость: отложенное распознавание занимает до 24 часов, а секунда распознавания стоит в 4 раза меньше.

Результаты обработки хранятся в системе в течение 5 дней после завершения распознавания.

Параметры запроса

Поле	Тип	Описание
config	RecognitionConfig	Настройки распознавания.
audio	RecognitionAudio	Аудио для распознавания. В отличие от `RecognizeRequest`, можно использовать URI-ресурс, загруженный через S3-совместимое хранилище.
group	string	Название группы, к которой относится операция. Группы позволяют логически объединять операции распознавания, например, для последующей фильтрации. Допустима пустая строка `''`.

RecognitionConfig

Настройки распознавания.

Поле	Тип	Возможные значения	Описание
encoding	AudioEncoding		Обязательный параметр. Формат аудио. Определяет и контейнер, и кодек. Должен задаваться явно. Как правильно указать encoding
sample_rate_hertz	uint32	Значение должно соответствовать частоте дискретизации аудио — `8000`, `11025`, `12000`, `16000`, `22050`, `24000`, `32000`, `44100`, `48000`, `96000`.	Обязательный параметр. Частота дискретизации в герцах.
num_channels	uint32	Значение должно соответствовать количеству каналов в аудио — `1` или `2`.	Обязательный параметр. Количество каналов в аудио.
max_alternatives	uint32	Значение по умолчанию — `1`. Диапазон значений ― `[1, 15]`. Если указать значение больше 15, будет выведено 15 альтернатив.	Опциональный параметр. Максимальное количество альтернатив для финальных и промежуточных результатов.
profanity_filter	bool	`true` ― скрыть ненормативную лексику; `false` ― оставить все слова, как есть.	Опциональный параметр. Скрыть ненормативную лексику. Пример скрытого слова: «б****».
speech_contexts	SpeechContext		Опциональный параметр. Контекст для распознавания.
enable_automatic_punctuation	bool	`true` ― вернется текст со знаками препинания и прописными буквами; `false` ― вернется текст без знаков препинания и прописных букв Значение по умолчанию — `false`.	Опциональный параметр. Добавить пунктуацию (запятые, точки и знаки вопроса) и прописные буквы.
do_not_perform_vad	bool	`true` ― распознанный текст вернется одной фразой; `false` ― текст в ответе будет разбит на фразы. Значение по умолчанию — `false`.	Опциональный параметр. Отключить разбиение текста на фразы.
vad_config	VoiceActivityDetectionConfig		Опциональный параметр. Настройки разбиения на фразы.
enable_denormalization	bool	`true` ― текст преобразуется в числовые данные; `false` ― результат записывается словами. Значение по умолчанию — `false`.	Опциональный параметр. Преобразовать текст в числовые данные — время, дата и так далее. Примеры: Числовые данные — «6:45 3 доллара 5 центов». Слова — «Шесть часов сорок пять минут три доллара пять центов».
enable_sentiment_analysis	bool	Значение по умолчанию — `false`.	Опциональный параметр. β Определить вероятность негативных и позитивных эмоций. Используется для каждой финальной гипотезы.
enable_gender_identification	bool	Значение по умолчанию — `false`.	Опциональный параметр. β Определить вероятность пола говорящего: мужской или женский. Используется для каждой финальной гипотезы.

RecognitionAudio

Аудио для распознавания.

Поле	Тип	Возможные значения	Описание
content	bytes	Аудиофайл.	Обязательный, если не указан `uri`. Исходное аудио целиком.
uri	string	Формат ссылки — `storage://s3.api.tinkoff.ai/inbound/<имя_файла>`.	Обязательный, если не указан `content`. URI исходного аудио. Подробнее

RecognitionConfig.SpeechContext

Контекст для распознавания. С его помощью можно повысить или понизить вероятность распознавания фраз — например, можно указать имена, узкоспециализированные термины, названия брендов.

Поле	Тип	Возможные значения	Описание
phrases	SpeechContextPhrase		Опциональный параметр. Фразы для контекста.
speech_context_dictionary_id	string	Значение, полученное при создании словаря.	Опциональный параметр. Идентификатор заранее подготовленного контекстного словаря на стороне облака VoiceKit. Подробнее про контекстный словарь.

SpeechContext.SpeechContextPhrase

Фраза для контекста.

Поле	Тип	Возможные значения	Описание
text	string	Не рекомендуется указывать фразы длиной меньше 5 символов.	Опциональный параметр. Текст фразы на русском языке в нижнем регистре.
score	float	Значение по умолчанию ― `1.0`. Этого достаточно, чтобы фраза распознавалась с большей вероятностью, чем фраза не из контекста. Диапазон значений ― `[-10.0, 10.0]`.	Опциональный параметр. Вес фразы. Чем больше вес, тем выше вероятность распознавания фразы. Если указать отрицательное значение, вероятность распознавания фразы или слова ниже.

RecognitionConfig.VoiceActivityDetectionConfig

Настройки определения тишины в аудио (VAD).

Поле	Тип	Возможные значения	Описание
silence_duration_threshold	float	Значение по умолчанию — `0.6`.	Опциональный параметр. Длительность паузы в секундах, после которой фраза считается завершенной.
silence_prob_threshold	float	Значение по умолчанию — `0.9`.	Опциональный параметр. Вероятность определения тишины. Фрагмент аудио считается тишиной, если она определилась с вероятностью выше этого значения.

Параметры ответа

Описание параметров ответа

AudioEncoding

Формат аудио. Определяет и контейнер, и кодек. Подробнее о PCM и LPCM.

Имя	Описание
LINEAR16	LPCM без заголовка, битовая глубина ― 16 бит.
MULAW	PCM без заголовков в распределении μ-law (PCMU), битовая глубина ― 8 бит.
ALAW	PCM без заголовков в распределении a-law (PCMA), битовая глубина ― 8 бит.
RAW_OPUS	Фреймы Opus, запакованные в сообщения Protobuf. Каждый фрейм должен быть запакован в поле `content` сообщения `RecognitionAudio`. При этом каждый фрейм нужно отправлять так, как он был закодирован ― не нужно объединять несколько фреймов в один.
MPEG_AUDIO	MPEG
ADTS_AAC	AAC аудио в ADTS потоке.
RAW_AAC_LC	AAC LC (Low Complexy) фреймы, запакованные в сообщения Protobuf. Поддерживается только в стриминговых методах. Важно Как и в RAW_OPUS-формате, каждый фрeйм должен отправляться отдельном сообщении.
RAW_ER_AAC_LD	ER AAC LD фреймы, запакованные в сообщения Protobuf. Поддерживается только в стриминговых методах. Важно Как и в RAW_OPUS-формате, каждый фрeйм должен отправляться в отдельном сообщении.