Дообучение моделей

Обучение моделей распознавания речи происходит на основе аудиозаписей и/или текстовых словарей.

В условиях доменно-специфичных терминов из разных областей дообучение моделей распознавания проводится для более точного определения используемых в речи слов.

Примеры специфических областей:

профильные термины — названия болезней, названия лекарств, экономические и юридические определения;
аббревиатуры — МВД, НЛП;
заимствованные слова — рекрутинг, митинг, коллы;
географические названия — города, реки, горы;
наименования товаров в магазине — названия брендов, типов продуктов (крупа кускус).

Есть три способа дообучения модели распознавания:

Передайте реальные аудиозаписи или телефонные разговоры, в которых используются нужные термины. Требования к аудиозаписям.
Передайте словари терминов и шаблоны их использования.
Используйте контекст в методе Распознавание речи → параметр SpeechContext. Рекомендуем использовать этот вариант, есть у вас меньше 200 слов или словосочетаний.

Аудиозаписи

Аудиозаписи — приоритетный вариант передачи данных для обучения.

Требования:

Крайне желательно, чтобы присылаемые аудиозаписи были записаны в тех же условиях, что и аудио, которые нужно распознавать в будущем.
Например, если предполагается распознавание звонков колл-центра больницы, передавайте аудио звонков колл-центра больницы.
Для обучения на аудиозаписях нужно от 30 до 100 (а лучше 1000) часов записей с голосами живых пользователей.
Передавайте данные в чистом виде без обработки — не пережимайте, не конвертируйте и не обрезайте.

Загрузите аудио на Яндекс Диск или другой файлообменник и пришлите ссылку на voicekit_support@tinkoff.ru или через форму обратной связи в личном кабинете.

Если есть только час или несколько часов речи, в которой произносятся термины из словарей, аудиозаписи будут использованы для корректной оценки качества дообучения (валидации).

Словарь терминов

Если у вас нет аудиозаписей в нужном количестве, можно прислать словарь терминов.

Словарь терминов — файл в текстовом формате (.txt, .tsv, .csv), в котором на каждой строке содержится ровно один термин.

Словарь терминов можно отправить на почту software_support@tinkoff.ru — в теме письма укажите «Дообучение модели для <Название компании>». Также можно отправить словарь через форму обратной связи в личном кабинете.

Требования:

Название словаря терминов пишется одним или несколькими словами. Слова разделяются нижним подчеркиванием _ (metro_Moscow.csv).
Суммарное количество терминов в словарях — от 200 до нескольких тысяч. Если слов меньше, используйте контекст — метод Распознавание речи → параметр SpeechContext. Термины могут быть как одиночными словами, так и короткими словосочетаниями.
Термины должны быть заранее нормализованы, то есть слова латиницей должны быть заменены на кириллическую транскрипцию, цифры и числительные — расшифрованы и написаны буквами, сокращения раскрыты. Примеры:
- «Красногвардейская 3в» — красногвардейская три в.
- «Его доставили в отдел МВД по адресу ул. Ленина 14» — его доставили в отдел мвд по адресу улица ленина четырнадцать.
- «22 апреля» — двадцать второе апреля.
- «1956 р 10 коп» — тысяча девятьсот пятьдесят шесть рублей десять копеек.
- "Apple" — эппл.
Для корректного использования шаблонов термины внутри одного словаря должны быть из одной сферы. Например, словарём может быть список наименований в магазине или список лекарств.
Каждый термин должен быть представлен в единственном и корректном варианте написания. Недопустимо, чтобы в словаре был корректно написанный термин и его вариация с ошибкой.
Например, препарат Eliquis: наиболее распространенная транслитерация — «эликвис», при этом иногда это слово пишут как «элеквис». В словаре должен быть только первый вариант, иначе при распознавании будет случайным образом определяться любое из написанных названий.
Если термины в вашем шаблоне нужно использовать в разных падежах, предоставьте термины в этих падежах с сохранением информации о падеже — используйте отдельный словарь для каждого падежа.

Шаблоны

Шаблоны — варианты использования слов или словосочетаний из словарей в контексте области применения. Они нужны для генерирования качественных наборов данных.

Для каждого словаря нужно предоставить 10-20 шаблонов. Шаблоны передаются в текстовом формате (.txt, .tsv, .csv), где на каждой строке содержится ровно одно предложение с примером использования.

Схема построения шаблонов — Текст {название_словаря} продолжение текста.

Шаблоны могут предполагать использование различных падежей, например:

{наименованиетовараименительный_падеж} стоит 500 рублей.
Я хочу купить {наименованиетоваравинительный_падеж}.
Мне на день рождения подарили {наименованиетоваравинительный_падеж}.

В этом случае нужно указывать не только название словаря, но и используемый в шаблоне падеж — пункт 6 требований к словарям.

На основе шаблонов будут генерироваться данные для обучения моделей, поэтому шаблоны должны быть разнообразными и похожими на то, что может встретиться в речи.