Синтез речи
Синтез речи, Text-To-Speech (TTS) — это синтетическая озвучка заданного текста.
Примеры использования
- Телефонные роботы.
- Голосовой ассистент.
- Озвучка контента.
Ключевые особенности
- Потоковый синтез в реальном времени.
- SSML.
- Выбор стиля прочтения или эмоции.
- Управление ударениями.
- Автоматическая расстановка ударений.
- Автоматическая нормализация текста.
Примеры синтеза речи
- Дима:
- Анна:
Расстановка ударений
- Омографы:
- Буква «е» озвучивается как «ё», где это необходимо:
- Чтобы вручную проставить ударение, достаточно добавить
0после ударной гласной — например, йо0гурт или йогу0рт:
Паузы
Любая пунктуация в тексте заменяется на паузу длительностью ~100–150 мс, поэтому для добавления паузы достаточно добавить запятую в нужное место.
- С паузами:
- Без пауз:
Не стоит использовать несколько знаков препинания подряд для управления длительностью пауз.
Для указания длительности пауз вручную можно использовать SSML-тег break time="50ms"
Вопросительная интонация
Спикер произносит текст с вопросительной интонацией, если в конце предложения стоит знак вопроса:
- Со знаком вопроса:
- Без знака вопроса:
Нормализация
В тексте для синтеза можно использовать цифры, номера телефонов, суммы денег, даты, время, адреса, слова на латинице и так далее — они будут озвучены корректно.
- Отчет:
- Адрес:
- Транслитерация:
Сравнение со студийной записью
- Студийная запись (произнесено реальным человеком)
- Синтезированное аудио
Качество синтеза
Для оценки качества синтезированной речи используется метрика MOS — Mean Opinion
Score. Она показывает, насколько синтезированный голос похож на человеческий по
мнению людей.
MOS нашего решения получил 4.3 балла из 5.
Контакты
Если у вас появились вопросы и вы являетесь нашим пользователем, авторизуйтесь на T‑Bank Software и обратитесь в поддержку.
Если вы еще не являетесь пользователем, рекомендуем зарегистрироваться.