Skip to main content

Дообучение моделей

Обучение моделей распознавания речи происходит на основе аудиозаписей и/или текстовых словарей.

В условиях доменно-специфичных терминов из разных областей дообучение моделей распознавания проводится для более точного определения используемых в речи слов.

Примеры специфических областей:

  • профильные термины — названия болезней, названия лекарств, экономические и юридические определения;
  • аббревиатуры — МВД, НЛП;
  • заимствованные слова — рекрутинг, митинг, коллы;
  • географические названия — города, реки, горы;
  • наименования товаров в магазине — названия брендов, типов продуктов (крупа кускус).

Есть три способа дообучения модели распознавания:

  1. Передайте реальные аудиозаписи или телефонные разговоры, в которых используются нужные термины. Требования к аудиозаписям.
  2. Передайте словари терминов и шаблоны их использования.
  3. Используйте контекст в методе Распознавание речи — параметр SpeechContext. Рекомендуем использовать этот вариант, есть у вас меньше 200 слов или словосочетаний.

Аудиозаписи

Аудиозаписи — приоритетный вариант передачи данных для обучения.

Требования:

  1. Крайне желательно, чтобы присылаемые аудиозаписи были записаны в тех же условиях, что и аудио, которые нужно распознавать в будущем.

    Например, если предполагается распознавание звонков колл-центра больницы, передавайте аудио звонков колл-центра больницы.

  2. Для обучения на аудиозаписях нужно от 30 до 100 (а лучше 1000) часов записей с голосами живых пользователей.

  3. Передавайте данные в чистом виде без обработки — не пережимайте, не конвертируйте и не обрезайте.

Загрузите аудио на Яндекс Диск или другой файлообменник и пришлите ссылку на voicekit_support@tinkoff.ru или через форму обратной связи в личном кабинете.

Если есть только час или несколько часов речи, в которой произносятся термины из словарей, аудиозаписи будут использованы для корректной оценки качества дообучения (валидации).

Словарь терминов

Если у вас нет аудиозаписей в нужном количестве, можно прислать словарь терминов.

Словарь терминов — файл в текстовом формате (.txt, .tsv, .csv), в котором на каждой строке содержится ровно один термин.

Словарь терминов можно отправить на почту software_support@tinkoff.ru — в теме письма укажите «Дообучение модели для <Название компании>». Также можно отправить словарь через форму обратной связи в личном кабинете.


Требования:

  1. Название словаря терминов пишется одним или несколькими словами. Слова разделяются нижним подчеркиванием _ (metro_Moscow.csv).

  2. Суммарное количество терминов в словарях — от 200 до нескольких тысяч. Если слов меньше, используйте контекст — метод Распознавание речи, параметр SpeechContext. Термины могут быть как одиночными словами, так и короткими словосочетаниями.

  3. Термины должны быть заранее нормализованы, то есть слова латиницей должны быть заменены на кириллическую транскрипцию, цифры и числительные — расшифрованы и написаны буквами, сокращения раскрыты. Примеры:

    • «Красногвардейская 3в» — красногвардейская три в.
    • «Его доставили в отдел МВД по адресу ул. Ленина 14» — его доставили в отдел мвд по адресу улица ленина четырнадцать.
    • «22 апреля» — двадцать второе апреля.
    • «1956 р 10 коп» — тысяча девятьсот пятьдесят шесть рублей десять копеек.
    • "Apple" — эппл.
  4. Для корректного использования шаблонов термины внутри одного словаря должны быть из одной сферы. Например, словарём может быть список наименований в магазине или список лекарств.

  5. Каждый термин должен быть представлен в единственном и корректном варианте написания. Недопустимо, чтобы в словаре был корректно написанный термин и его вариация с ошибкой.

    Например, препарат Eliquis: наиболее распространенная транслитерация — «эликвис», при этом иногда это слово пишут как «элеквис». В словаре должен быть только первый вариант, иначе при распознавании будет случайным образом определяться любое из написанных названий.

  6. Если термины в вашем шаблоне нужно использовать в разных падежах, предоставьте термины в этих падежах с сохранением информации о падеже — используйте отдельный словарь для каждого падежа.

Шаблоны

Шаблоны — варианты использования слов или словосочетаний из словарей в контексте области применения. Они нужны для генерирования качественных наборов данных.

Для каждого словаря нужно предоставить 10-20 шаблонов. Шаблоны передаются в текстовом формате (.txt, .tsv, .csv), где на каждой строке содержится ровно одно предложение с примером использования.

Схема построения шаблонов — Текст {название_словаря} продолжение текста.

Пример названий словарей:

  • список_лекарств.txt;
  • имена.csv;
  • фамилии.csv;
  • станция_метро.tsv.

Примеры шаблонов:

  • Не рекомендуется принимать {список_лекарств} предварительно не получив консультацию врача.
  • Меня зовут {имена} {фамилии}.
  • Следующая станция {станция_метро}.

Шаблоны могут предполагать использование различных падежей, например:

  • {наименованиетовараименительный_падеж} стоит 500 рублей.
  • Я хочу купить {наименованиетоваравинительный_падеж}.
  • Мне на день рождения подарили {наименованиетоваравинительный_падеж}.

В этом случае нужно указывать не только название словаря, но и используемый в шаблоне падеж — пункт 6 требований к словарям.

На основе шаблонов будут генерироваться данные для обучения моделей, поэтому шаблоны должны быть разнообразными и похожими на то, что может встретиться в речи.

openapi@tbank.ru

АО «ТБанк» использует файлы «cookie» с целью персонализации сервисов и повышения удобства пользования веб-сайтом. «Cookie» представляют собой небольшие файлы, содержащие информацию о предыдущих посещениях веб-сайта. Если вы не хотите использовать файлы «cookie», измените настройки браузера.