Skip to main content

Потоковый синтез речи

Параметры запроса

Формат входящего сообщения.

ПолеТипОписание
inputSynthesisInputИсходные данные для синтеза: текст или разметка SSML.
voiceVoiceSelectionParamsНастройки голоса для синтеза.
audio_configAudioConfigНастройки синтезируемого аудио.

SynthesisInput

Исходные данные для синтеза: текст или разметка SSML.

ПолеТипОписание
textstringТекст без SSML-разметки, допускается пунктуация.
ssmlstringТекст в формате SSML.

VoiceSelectionParams

Настройки голоса для синтеза.

ПолеТипОписание
namestringНазвание голоса.

AudioConfig

Настройки синтезируемого аудио.

ПолеТипОписание
audio_encodingAudioEncodingФормат аудио. Определяет и контейнер, и кодек. Должен задаваться явно.
Как правильно указать encoding
sample_rate_hertzint32

Частота дискретизации в герцах. Должна задаваться явно. Поддерживаемые частоты:

  • для формата RAW_OPUS8 000, 12 000, 16 000, 24 000 и 48 000 Гц;
  • для вех остальных форматов — от 1 000 до 48 000.
speaking_ratefloat32Скорость произношения. Задается в долях от естественной скорости произношения для конкретного голоса.

Например, значение 0.5 замедляет речь в два раза, 2 — ускоряет в 2 раза. Поддерживаются значения от 0.33 до 3.

Значение по умолчанию — 1.0.
pitchfloat32Высота речи. Задается в долях от естественной высоты конкретного голоса.

Например, значение 0.5 понижает высоту голоса в 2 раза, 2 — повышает в 2 раза. Поддерживаются значения от 0.33 до 3.

Значение по умолчанию — 1.0.

Параметры ответа

ПолеТипОписание
audio_chunkbytes

Фрагмент ответа:

  • для LINEAR16, MULAW и ALAW ― семплы;
  • для RAW_OPUS ― одиночный фрейм. Подробнее — в описании параметра RAW_OPUS.

AudioEncoding

Формат аудио. Определяет и контейнер, и кодек. Подробнее о PCM и LPCM.

ИмяОписание
LINEAR16LPCM без заголовка, битовая глубина ― 16 бит.
ALAWPCM без заголовков в распределении a-law (PCMA), битовая глубина ― 8 бит.
RAW_OPUSФреймы Opus, запакованные в сообщения Protobuf. Доступно только для потокового синтеза речи.
Каждый фрейм Opus запаковывается в отдельное сообщение с полем audio_content. Синтезируемое аудио возвращается в семплах с частотой дискретизации, указанной в sample_rate_hertz.

openapi@tbank.ru

АО «ТБанк» использует файлы «cookie» с целью персонализации сервисов и повышения удобства пользования веб-сайтом. «Cookie» представляют собой небольшие файлы, содержащие информацию о предыдущих посещениях веб-сайта. Если вы не хотите использовать файлы «cookie», измените настройки браузера.