Руководство по распознаванию речи

Подготовка

В этом руководстве можно посмотреть, как и для каких целей используются методы распознавания речи с примерами.

Эндпоинт для распознавания — api.tinkoff.ai:443.

Для авторизации в сервисах получаем ключи и вставляем их в переменные среды.
```
export VOICEKIT_API_KEY="PUT_YOUR_API_KEY_HERE"
export VOICEKIT_SECRET_KEY="PUT_YOUR_SECRET_KEY_HERE"
```

Клонируем репозиторий с примерами.

git clone --recursive https://github.com/Tinkoff/voicekit-examples.git

Устанавливаем зависимости.

sudo apt-get install python3 python-pyaudio python3-pyaudio
sudo python3 -m pip install -r requirements/all.txt

В сервисе есть 4 метода для распознавания речи:

Распознавание речи (Recognize). Работает по принципу «загружаем аудио целиком, получаем ответ». Полезен для распознавания аудиофайлов.
Потоковое распознавание речи (StreamingRecognize). Нужен для распознавания речи в реальном времени: телефонных звонков, голосовых ассистентов и так далее. Также в методе больше возможностей для распознавания файлов.
Отложенное распознавание речи (LongRunningRecognize). Работает по принципу «отправляем аудио целиком, а результат — когда он будет готов — забираем из отдельного интерфейса».
Потоковое распознавание речи с синхронным ответом в конце (StreamingUnaryRecognize). Используется, если:
- есть большие аудио, которые не укладываются в ограничения Recognize;
- нужен результат распознавания сразу после окончания аудиопотока, но без промежуточных результатов.

Распознавание речи

Пример 1: метод Recognize() для LINEAR16

$ ./stt_recognize_linear16_raw.py

Самый простой режим запрос-ответ: загружаем аудио целиком, получаем ответ.

В этом примере также загружаем сэмплы из «сырого» формата .s16 — он не содержит метаинформации, в отличие от .wav.

В нашем случае работаем с одноканальным аудио с частотой дискретизации 16 KHz.

Импортируем модули.

from tinkoff.cloud.stt.v1 import stt_pb2_grpc, stt_pb2 # сообщения и стабы gRPC API
from auth import authorization_metadata # для авторизации по JWT
import grpc
import os

Получаем конфигурацию.

# можно получать из переменных среды или заменить в сниппете
endpoint = os.environ.get("VOICEKIT_ENDPOINT") or "api.tinkoff.ai:443"
api_key = os.environ["VOICEKIT_API_KEY"]
secret_key = os.environ["VOICEKIT_SECRET_KEY"]

Создаем запрос.

def build_request():
    request = stt_pb2.RecognizeRequest()
    with open("../audio/sample_3.s16", "rb") as f:
        request.audio.content = f.read()
    request.config.encoding = stt_pb2.AudioEncoding.LINEAR16
    request.config.sample_rate_hertz = 16000 # Значение не содержится в файле `.s16`
    request.config.num_channels = 1 # Значение не содержится в файле `.s16`
    return request

Реализуем печать ответа.

def print_recognition_response(response):
    for result in response.results:
        print("Channel", result.channel)
        print("Phrase start:", result.start_time.ToTimedelta())
        print("Phrase end:  ", result.end_time.ToTimedelta())
        for alternative in result.alternatives:
            print('"' + alternative.transcript + '"')
        print("----------------------------")

Отправляем запрос.

stub = stt_pb2_grpc.SpeechToTextStub(grpc.secure_channel(endpoint, grpc.ssl_channel_credentials()))
metadata = authorization_metadata(api_key, secret_key, "tinkoff.cloud.stt")
response = stub.Recognize(build_request(), metadata=metadata)
print_recognition_response(response)

Руководство по распознаванию речи

Подготовка

Распознавание речи

Пример 1: метод Recognize() для LINEAR16

Потоковое распознавание речи

Кодеки и форматы файлов

Пример 2: переходим на метод StreamingRecognize()

Пример 3: загружаем аудио из .wav-файла

Пример 4: используем кодек A-Law

Пример 5: распознаём MP3

Пример 6: кодируем в Opus на лету

Ввод с микрофона

Пример 7: распознаём с микрофона

Режимы и опции распознавания

Пример 8: получаем несколько гипотез

Пример 9: получаем промежуточные гипотезы

Пример 10: кастомизируем VAD (Voice Activity Detection) для streaming_recognize

Пример 11: кастомизируем VAD (Voice Activity Detection) для recognize

Пример 12: режим завершения после первой фразы

Пример 13: выключаем VAD

Пример 14: включаем пунктуацию

Пример 15: включаем фильтр ненормативной лексики

Пример 16: задаём контекст

Пример 17: включаем определения пола спикера

Пример 18: включаем определение эмоций

Отложенное распознавание речи

Пример 19: загрузка аудио для отложенной обработки и получение результата через циклический опрос

Пример 20: загрузка пачки аудио для отложенной обработки и получение результата через нотификации

Пример 21: загрузка пачки аудио для отложенной обработки с идентификацией задания через x-client-request-id

Пример 3: загружаем аудио из `.wav`-файла

Пример 21: загрузка пачки аудио для отложенной обработки с идентификацией задания через `x-client-request-id`