Синтез речи

Синтез речи, Text-To-Speech (TTS) — это синтетическая озвучка заданного текста.

Примеры использования

Телефонные роботы.
Голосовой ассистент.
Озвучка контента.

Ключевые особенности

Потоковый синтез в реальном времени.
SSML.
Выбор стиля прочтения или эмоции.
Управление ударениями.
Автоматическая расстановка ударений.
Автоматическая нормализация текста.

Примеры синтеза речи

Дима:

Анна:

Расстановка ударений

Омографы:

Буква «е» озвучивается как «ё», где это необходимо:

Чтобы вручную проставить ударение, достаточно добавить 0 после ударной гласной — например, йо0гурт или йогу0рт:

Паузы

Любая пунктуация в тексте заменяется на паузу длительностью ~100–150 мс, поэтому для добавления паузы достаточно добавить запятую в нужное место.

С паузами:

Без пауз:

Не стоит использовать несколько знаков препинания подряд для управления длительностью пауз.

Для указания длительности пауз вручную можно использовать SSML-тег break time="50ms" с подходящей вам длительностью. Подробнее.

Вопросительная интонация

Спикер произносит текст с вопросительной интонацией, если в конце предложения стоит знак вопроса:

Со знаком вопроса:

Без знака вопроса:

Нормализация

В тексте для синтеза можно использовать цифры, номера телефонов, суммы денег, даты, время, адреса, слова на латинице и так далее — они будут озвучены корректно.

Отчет:

Адрес:

Транслитерация:

Сравнение со студийной записью

Студийная запись (произнесено реальным человеком)

Синтезированное аудио

Качество синтеза

Для оценки качества синтезированной речи используется метрика MOS — Mean Opinion Score. Она показывает, насколько синтезированный голос похож на человеческий по мнению людей.

MOS нашего решения получил 4.3 балла из 5.

Контакты

Если у вас появились вопросы и вы являетесь нашим пользователем, авторизуйтесь на T‑Bank Software и обратитесь в поддержку.

Если вы еще не являетесь пользователем, рекомендуем зарегистрироваться.