Компания «Наносемантика», резидент кластера информационных технологий фонда «Сколково», вышла на рынок распознавания речи, представив технологию NLab Speech. Она представляет собой набор нейросетевых алгоритмов обработки аудиосигналов и анализа текста, обученных и откалиброванных на большом количестве размеченных вручную речевых данных.

Внедрение систем автоматического распознавания речи (ASR), отмечают в фонде «Сколково», способно облегчить и оптимизировать работу в различных сферах бизнеса. К примеру, голосовой помощник, наделенный речевыми возможностями высокого уровня и распознавания слов, заменяет десятки и сотни сотрудников колл-центра, что сокращает расходы компании на персонал и повышает скорость обслуживания клиентов. Медработники с помощью голосового заполнения документов смогут быстро составлять анамнезы, а люди с ограниченными возможностями за счет голосовых технологий улучшат качество своей жизни.

Создание технологии заняло у «Наносемантики» более двух лет. Чтобы подготовить большой массив обучающих данных, команда разработала платформу для их разметки NLab Marker. C ее помощью данные преобразуются в формат, пригодный для обучения нейронных сетей.

Нейронная сеть в NLab Speech, в отличие от человека, анализирует звуковой сигнал как изображение: каждому аудио сопоставляется его спектрограмма, после чего нейронная сеть переводит спектрограммы в текстовые предположения о том, что было произнесено в аудио. Наилучший вариант определяется при помощи языковой модели, учитывающей частотные показатели совместной встречаемости слов.

Для обучения акустических моделей было собрано более 12 тыс. чамов аудио из различных источников: колл-центры, голосовые сообщения, аудиокниги, вебинары. Также были подготовлены наборы данных для обучения моделей, которые показывают лучшие результаты на записях с микрофонов пользовательских устройств, таких как смартфоны и ноутбуки. Пришлось учесть реверберацию и эквализацию при работе с аудио записями из разных источников и полученных при записи в разных условиях.

Показатель точности NLab Speech (обратный Word Error Rate) сейчас составляет более 82% на зашумленных данных из телефонии. А скорость обработки данных в облаке «Наносемантики» достигает 6 real-time factor, что на 40–80% выше скорости конкурирующих облачных сервисов.

На сегодняшний день, отмечают разработчики, технология распознавания речи NLab Speech – это самодостаточная технология, повторяющая речевые возможности человека, не требующая участия в процессе сторонних сервисов. Быстрое и масштабируемое распознавание речи работает и на процессорах, и на видеокартах. NLab Speech включает в себя как файловое распознавание речи, так и потоковое. Первое выдает только конечный результат, а потоковое – в том числе и промежуточные после каждого сказанного слова, которые корректируются в зависимости от продолжения речи (такой же принцип используется, например, в Apple Siri). Помимо прочего, ASR от «Наносемантики» работает с основными протоколами связи: websocket, grpc и mrcp – это обеспечивает гибкость NLab Speech при интеграции сервиса конкретному клиенту. Также имеется разбивка стереозаписей по диалоговым репликам для удобства использования результатов ASR в системах речевой аналитики. NLab Speech автоматически корректирует написание текста, исправляет ошибки и расставляет пунктуацию.

Для повышения точности распознавания речи в «Наносемантике» планируют внедрить в NLab Speech классификацию аудио по полу, возрасту, скорости речи, высоте тона, громкости и эмоциям говорящего, а также добавить классификацию мест по шуму окружения говорящего. Ведется также разработка английского, китайского и корейского ASR.