Потоковый синтез речи

Параметры запроса

Формат входящего сообщения.

Поле	Тип	Описание
input	SynthesisInput	Исходные данные для синтеза: текст или разметка SSML.
voice	VoiceSelectionParams	Настройки голоса для синтеза.
audio_config	AudioConfig	Настройки синтезируемого аудио.

Исходные данные для синтеза: текст или разметка SSML.

Поле	Тип	Описание
text	string	Текст без SSML-разметки, допускается пунктуация.
ssml	string	Текст в формате SSML.

Настройки голоса для синтеза.

Поле	Тип	Описание
name	string	Название голоса.

Настройки синтезируемого аудио.

Поле	Тип	Описание
audio_encoding	AudioEncoding	Формат аудио. Определяет и контейнер, и кодек. Должен задаваться явно. Как правильно указать encoding
sample_rate_hertz	int32	Частота дискретизации в герцах. Должна задаваться явно. Поддерживаемые частоты: для формата `RAW_OPUS` — `8 000`, `12 000`, `16 000`, `24 000` и `48 000` Гц; для вех остальных форматов — от `1 000` до `48 000`.
speaking_rate	float32	Скорость произношения. Задается в долях от естественной скорости произношения для конкретного голоса. Например, значение `0.5` замедляет речь в два раза, `2` — ускоряет в 2 раза. Поддерживаются значения от `0.33` до `3`. Значение по умолчанию — `1.0`.
pitch	float32	Высота речи. Задается в долях от естественной высоты конкретного голоса. Например, значение `0.5` понижает высоту голоса в 2 раза, `2` — повышает в 2 раза. Поддерживаются значения от `0.33` до `3`. Значение по умолчанию — `1.0`.

Поле Тип Описание

audio_chunk

bytes

Поле	Тип	Описание
audio_chunk	bytes	Фрагмент ответа: для `LINEAR16`, `MULAW` и `ALAW` ― семплы; для `RAW_OPUS` ― одиночный фрейм. Подробнее — в описании параметра `RAW_OPUS`.

Фрагмент ответа:

Формат аудио. Определяет и контейнер, и кодек. Подробнее о PCM и LPCM.

Имя	Описание
LINEAR16	LPCM без заголовка, битовая глубина ― 16 бит.
ALAW	PCM без заголовков в распределении a-law (PCMA), битовая глубина ― 8 бит.
RAW_OPUS	Фреймы Opus, запакованные в сообщения Protobuf. Доступно только для потокового синтеза речи. Каждый фрейм Opus запаковывается в отдельное сообщение с полем `audio_content`. Синтезируемое аудио возвращается в семплах с частотой дискретизации, указанной в `sample_rate_hertz`.