Синтез речи
Синтез речи, Text-To-Speech (TTS) — это синтетическая озвучка заданного текста.
Примеры использования
- Телефонные роботы.
- Голосовой ассистент.
- Озвучка контента.
Ключевые особенности
- Потоковый синтез в реальном времени.
- SSML.
- Выбор стиля прочтения или эмоции.
- Управление ударениями.
- Автоматическая расстановка ударений.
- Автоматическая нормализация текста.
Примеры синтеза речи
Дима:
Анна:
Расстановка ударений
Омографы:
Буква «е» озвучивается как «ё», где это необходимо:
Чтобы вручную проставить ударение, достаточно добавить
0
после ударной гласной — например, йо0гурт или йогу0рт:
Паузы
Любая пунктуация в тексте заменяется на паузу длительностью ~100–150 мс, поэтому для добавления паузы достаточно добавить запятую в нужное место.
С паузами:
Без пауз:
Не стоит использовать несколько знаков препинания подряд для управления длительностью пауз.
Для указания длительности пауз вручную можно использовать SSML-тег <break time="50ms"/>
(с подходящей вам длительностью), подробнее можно узнать на странице SSML-разметка:
Вопросительная интонация
Спикер произносит текст с вопросительной интонацией, если в конце предложения стоит знак вопроса:
Со знаком вопроса:
Без знака вопроса:
Нормализация
В тексте для синтеза можно использовать цифры, номера телефонов, суммы денег, даты, время, адреса, слова на латинице и так далее — они будут озвучены корректно.
Отчет:
Адрес:
Транслитерация:
Сравнение со студийной записью
Студийная запись (произнесено реальным человеком)
Синтезированное аудио
Качество синтеза
Для оценки качества синтезированной речи используется метрика MOS
— Mean Opinion Score.
Она показывает, насколько синтезированный голос похож на человеческий по мнению людей.
MOS
нашего решения получил 4.3 балла из 5.
Контакты
Если у вас появились вопросы и вы являетесь нашим пользователем, авторизуйтесь на T‑Bank Software и обратитесь в поддержку.
Если вы еще не являетесь пользователем, рекомендуем зарегистрироваться.