Синтез речи

Синтез речи, Text-To-Speech (TTS) — это синтетическая озвучка заданного текста.

Примеры использования

Телефонные роботы.
Голосовой ассистент.
Озвучка контента.

Ключевые особенности

Потоковый синтез в реальном времени.
SSML.
Выбор стиля прочтения или эмоции.
Управление ударениями.
Автоматическая расстановка ударений.
Автоматическая нормализация текста.

Примеры синтеза речи

Расстановка ударений

Омографы:
Буква «е» озвучивается как «ё», где это необходимо:
Чтобы вручную проставить ударение, достаточно добавить 0 после ударной гласной — например, йо0гурт или йогу0рт:

Паузы

Любая пунктуация в тексте заменяется на паузу длительностью ~100–150 мс, поэтому для добавления паузы достаточно добавить запятую в нужное место.

Не стоит использовать несколько знаков препинания подряд для управления длительностью пауз.

Для указания длительности пауз вручную можно использовать SSML-тег <break time="50ms"/> (с подходящей вам длительностью), подробнее можно узнать на странице SSML-разметка:

Вопросительная интонация

Спикер произносит текст с вопросительной интонацией, если в конце предложения стоит знак вопроса:

Нормализация

В тексте для синтеза можно использовать цифры, номера телефонов, суммы денег, даты, время, адреса, слова на латинице и так далее — они будут озвучены корректно.

Сравнение со студийной записью

Студийная запись (произнесено реальным человеком)
Синтезированное аудио

Качество синтеза

Для оценки качества синтезированной речи используется метрика MOS — Mean Opinion Score. Она показывает, насколько синтезированный голос похож на человеческий по мнению людей.

MOS нашего решения получил 4.3 балла из 5.

Контакты

Если у вас появились вопросы и вы являетесь нашим пользователем, авторизуйтесь на T‑Bank Software и обратитесь в поддержку.
Если вы еще не являетесь пользователем, рекомендуем зарегистрироваться.