Дообучение моделей
Обучение моделей распознавания речи происходит на основе аудиозаписей и/или текстовых словарей.
В условиях доменно-специфичных терминов из разных областей дообучение моделей распознавания проводится для более точного определения используемых в речи слов.
Примеры специфических областей:
- профильные термины — названия болезней, названия лекарств, экономические и юридические определения;
- аббревиатуры — МВД, НЛП;
- заимствованные слова — рекрутинг, митинг, коллы;
- географические названия — города, реки, горы;
- наименования товаров в магазине — названия брендов, типов продуктов (крупа кускус).
Есть три способа дообучения модели распознавания:
- Передайте реальные аудиозаписи или телефонные разговоры, в которых используются нужные термины. Требования к аудиозаписям.
- Передайте словари терминов и шаблоны их использования.
- Используйте контекст в методе Распознавание речи — параметр
SpeechContext
. Рекомендуем использовать этот вариант, есть у вас меньше 200 слов или словосочетаний.
Аудиозаписи
Аудиозаписи — приоритетный вариант передачи данных для обучения.
Требования:
Крайне желательно, чтобы присылаемые аудиозаписи были записаны в тех же условиях, что и аудио, которые нужно распознавать в будущем.
Например, если предполагается распознавание звонков колл-центра больницы, передавайте аудио звонков колл-центра больницы.
Для обучения на аудиозаписях нужно от 30 до 100 (а лучше 1000) часов записей с голосами живых пользователей.
Передавайте данные в чистом виде без обработки — не пережимайте, не конвертируйте и не обрезайте.
Загрузите аудио на Яндекс Диск или другой файлообменник и пришлите ссылку на voicekit_support@tinkoff.ru или через форму обратной связи в личном кабинете.
Если есть только час или несколько часов речи, в которой произносятся термины из словарей, аудиозаписи будут использованы для корректной оценки качества дообучения (валидации).
Словарь терминов
Если у вас нет аудиозаписей в нужном количестве, можно прислать словарь терминов.
Словарь терминов — файл в текстовом формате (.txt, .tsv, .csv), в котором на каждой строке содержится ровно один термин.
Словарь терминов можно отправить на почту software_support@tinkoff.ru — в теме письма укажите «Дообучение модели для <Название компании>». Также можно отправить словарь через форму обратной связи в личном кабинете.
Требования:
Название словаря терминов пишется одним или несколькими словами. Слова разделяются нижним подчеркиванием
_
(metro_Moscow.csv).Суммарное количество терминов в словарях — от 200 до нескольких тысяч. Если слов меньше, используйте контекст — метод Распознавание речи, параметр
SpeechContext
. Термины могут быть как одиночными словами, так и короткими словосочетаниями.Термины должны быть заранее нормализованы, то есть слова латиницей должны быть заменены на кириллическую транскрипцию, цифры и числительные — расшифрованы и написаны буквами, сокращения раскрыты. Примеры:
- «Красногвардейская 3в» — красногвардейская три в.
- «Его доставили в отдел МВД по адресу ул. Ленина 14» — его доставили в отдел мвд по адресу улица ленина четырнадцать.
- «22 апреля» — двадцать второе апреля.
- «1956 р 10 коп» — тысяча девятьсот пятьдесят шесть рублей десять копеек.
- "Apple" — эппл.
Для корректного использования шаблонов термины внутри одного словаря должны быть из одной сферы. Например, словарём может быть список наименований в магазине или список лекарств.
Каждый термин должен быть представлен в единственном и корректном варианте написания. Недопустимо, чтобы в словаре был корректно написанный термин и его вариация с ошибкой.
Например, препарат Eliquis: наиболее распространенная транслитерация — «эликвис», при этом иногда это слово пишут как «элеквис». В словаре должен быть только первый вариант, иначе при распознавании будет случайным образом определяться любое из написанных названий.
Если термины в вашем шаблоне нужно использовать в разных падежах, предоставьте термины в этих падежах с сохранением информации о падеже — используйте отдельный словарь для каждого падежа.
Шаблоны
Шаблоны — варианты использования слов или словосочетаний из словарей в контексте области применения. Они нужны для генерирования качественных наборов данных.
Для каждого словаря нужно предоставить 10-20 шаблонов. Шаблоны передаются в текстовом формате (.txt, .tsv, .csv), где на каждой строке содержится ровно одно предложение с примером использования.
Схема построения шаблонов — Текст {название_словаря} продолжение текста
.
Пример названий словарей:
- список_лекарств.txt;
- имена.csv;
- фамилии.csv;
- станция_метро.tsv.
Примеры шаблонов:
- Не рекомендуется принимать {список_лекарств} предварительно не получив консультацию врача.
- Меня зовут {имена} {фамилии}.
- Следующая станция {станция_метро}.
Шаблоны могут предполагать использование различных падежей, например:
- {наименованиетовараименительный_падеж} стоит 500 рублей.
- Я хочу купить {наименованиетоваравинительный_падеж}.
- Мне на день рождения подарили {наименованиетоваравинительный_падеж}.
В этом случае нужно указывать не только название словаря, но и используемый в шаблоне падеж — пункт 6 требований к словарям.
На основе шаблонов будут генерироваться данные для обучения моделей, поэтому шаблоны должны быть разнообразными и похожими на то, что может встретиться в речи.