Skip to main content

Потоковый синтез речи

Параметры запроса

Формат входящего сообщения.

ПолеТипОписание
inputSynthesisInputИсходные данные для синтеза: текст или разметка SSML.
voiceVoiceSelectionParamsНастройки голоса для синтеза.
audio_configAudioConfigНастройки синтезируемого аудио.

SynthesisInput

Исходные данные для синтеза: текст или разметка SSML.

ПолеТипОписаниеПо умолчаниюОграничения
textstringТекст без SSML-разметки, допускается пунктуация.""Общее ограничение
ssmlstringТекст в формате SSML.""Общее ограничение

VoiceSelectionParams

Настройки голоса для синтеза.

ПолеТипОписаниеПо умолчаниюОграниченияОшибка при неправильном значении
namestringНазвание голоса.Конфигурируется на уровне сервиса, значение может изменяться.Значение из списка доступных голосов.
  • Некорректное название голоса: INVALID_ARGUMENT
  • Голос недоступен для API-ключа: PERMISSION_DENIED

AudioConfig

Настройки синтезируемого аудио.

ПолеТипОписаниеПо умолчаниюОграниченияОшибка при неправильном значении
audio_encodingAudioEncodingФормат аудио. Определяет и контейнер, и кодек.Нет, поле обязательное.Значение только из списка поддерживаемых форматов.Код 3 INVALID_ARGUMENT
sample_rate_hertzint32Частота дискретизации в герцах. Должна задаваться явно.Нет, поле обязательное.Поддерживаемые частоты:
  • для формата RAW_OPUS8 000, 12 000, 16 000, 24 000 и 48 000 Гц;
  • для вех остальных форматов — от 1 000 до 48 000.
Код 3 INVALID_ARGUMENT
speaking_ratefloat32Скорость произношения. Задается в долях от естественной скорости произношения для конкретного голоса.
Например, значение 0.5 замедляет речь в два раза, 2 — ускоряет в 2 раза.
1.0Поддерживаются значения от 0.33 до 3.Код 3 INVALID_ARGUMENT
pitchfloat32Высота речи. Задается в долях от естественной высоты конкретного голоса.
Например, значение 0.5 понижает высоту голоса в 2 раза, 2 — повышает в 2 раза.
1.0Поддерживаются значения от 0.33 до 3.Код 3 INVALID_ARGUMENT

Параметры ответа

ПолеТипОписаниеОграничения
audio_chunkbytes

Фрагмент ответа:

  • для LINEAR16, MULAW и ALAW ― семплы;
  • для RAW_OPUS ― одиночный фрейм. Подробнее — в описании параметра RAW_OPUS.
Общее ограничение

AudioEncoding

Формат аудио. Определяет и контейнер, и кодек. Подробнее о PCM и LPCM.

ИмяОписание
LINEAR16LPCM без заголовка, битовая глубина ― 16 бит.
ALAWPCM без заголовков в распределении a-law (PCMA), битовая глубина ― 8 бит.
RAW_OPUSФреймы Opus, запакованные в сообщения Protobuf. Доступно только для потокового синтеза речи.
Каждый фрейм Opus запаковывается в отдельное сообщение с полем audio_content. Синтезируемое аудио возвращается в семплах с частотой дискретизации, указанной в sample_rate_hertz.

Общее ограничение

Максимальный размер gRPC-запроса — 4 Мб.

Если лимит превышен, возвращается ошибка RESOURCE_EXHAUSTED:

  • Код ошбики — 8.
  • Сообщение — received message larger than max (<размер вашего сообщения> vs. 4194304). Может измениться, приведено для примера.

openapi@tbank.ru

АО «ТБанк» использует файлы «cookie» с целью персонализации сервисов и повышения удобства пользования веб-сайтом. «Cookie» представляют собой небольшие файлы, содержащие информацию о предыдущих посещениях веб-сайта. Если вы не хотите использовать файлы «cookie», измените настройки браузера.