Непотоковый синтез речи
Параметры запроса
Формат входящего сообщения.
Поле | Тип | Описание |
---|---|---|
input | SynthesisInput | Исходные данные для синтеза: текст или разметка SSML. |
voice | VoiceSelectionParams | Настройки голоса для синтеза. |
audio_config | AudioConfig | Настройки синтезируемого аудио. |
SynthesisInput
Исходные данные для синтеза: текст или разметка SSML.
Тип | Описание | |||
---|---|---|---|---|
text | string | Текст без SSML-разметки, допускается пунктуация. | "" | Общее ограничение |
ssml | string | Текст в формате SSML. | "" | Общее ограничение |
VoiceSelectionParams
Настройки голоса для синтеза.
Поле | Тип | Ошибка при неправильном значении | |||
---|---|---|---|---|---|
name | string | Название голоса. | Конфигурируется на уровне сервиса, значение может изменяться. | Значение из списка доступных голосов. |
|
AudioConfig
Настройки синтезируемого аудио.
Поле | Тип | Описание | Ограничения | Ошибка при неправильном значении | |
---|---|---|---|---|---|
audio_encoding | AudioEncoding | Формат аудио. Определяет и контейнер, и кодек. | Нет, поле обязательное. | Значение только из списка поддерживаемых форматов. | Код 3 INVALID_ARGUMENT |
sample_rate_hertz | int32 | Частота дискретизации в герцах. Должна задаваться явно. | Нет, поле обязательное. | Поддерживаемые частоты:
| Код 3 INVALID_ARGUMENT |
speaking_rate | float32 | Скорость произношения. Задается в долях от естественной скорости произношения для конкретного голоса. Например, значение 0.5 замедляет речь в два раза, 2 — ускоряет в 2 раза. | 1.0 | Поддерживаются значения от 0.33 до 3 . | Код 3 INVALID_ARGUMENT |
pitch | float32 | Высота речи. Задается в долях от естественной высоты конкретного голоса. Например, значение 0.5 понижает высоту голоса в 2 раза, 2 — повышает в 2 раза. | 1.0 | Поддерживаются значения от 0.33 до 3 . | Код 3 INVALID_ARGUMENT |
Параметры ответа
Поле | Тип | Описание | Ограничения |
---|---|---|---|
audio_content | bytes | Синтезированное аудио целиком. | Общее ограничение |
AudioEncoding
Формат аудио. Определяет и контейнер, и кодек. Подробнее о PCM и LPCM.
Имя | Описание |
---|---|
LINEAR16 | LPCM без заголовка, битовая глубина ― 16 бит. |
ALAW | PCM без заголовков в распределении a-law (PCMA), битовая глубина ― 8 бит. |
RAW_OPUS | Фреймы Opus, запакованные в сообщения Protobuf. Доступно только для потокового синтеза речи. Каждый фрейм Opus запаковывается в отдельное сообщение с полем audio_content . Синтезируемое аудио возвращается в семплах с частотой дискретизации, указанной в sample_rate_hertz . |
Общее ограничение
Максимальный размер gRPC-запроса — 4 Мб.
Если лимит превышен, возвращается ошибка RESOURCE_EXHAUSTED
:
- Код ошбики —
8
. - Сообщение —
received message larger than max (<размер вашего сообщения> vs. 4194304)
. Может измениться, приведено для примера.