Компания «Наносемантика», разработчик технологий ИИ и резидент кластера информационных технологий фонда «Сколково», запустила сервис NLab Marker, который помогает преобразовать данные в информацию, понятную нейронным сетям.

NLab Marker – это промышленная платформа, готовая к эксплуатации на задачах с большими объемами данных, которые нуждаются в специальной ручной обработке – разметке и подготовке специалистами обучающих примеров для алгоритмов машинного обучения. NLab Marker позволяет выделять объекты на видео, расшифровывать аудиозаписи, размечать медицинские снимки. Сервис сокращает время работы специалистов по подготовке данных (разметчиков) и количество ошибок при формировании набора обучающих данных (датасета).

Как поясняют в компании, машинное обучение невозможно без обучающих данных – примеров, по которым учатся алгоритмы, причем очень важно, чтобы данные были качественно размечены. Команда «Наносемантики» разработала платформу NLab Marker для себя, но теперь намерена предложить этот продукт рынку, так как видит спрос на промышленные платформы разметки данных, которые позволяют гибко реализовать задачи по разметке и самостоятельно администрировать этот процесс компаниям с сильным отделом Data Science.

Ошибки в датасете, подчеркивают в «Наносемантике», критически влияют на качество обучения нейронной сети. Например, нейросеть, обученная для видеоаналитики, будет пропускать брак на производственной линии или неверно переносить персональные данные из заполненной анкеты в МФЦ. В NLab Marker внедрена система автоматической проверки работы разметчиков на примерах-ловушках (ханипотах). Также контролируются время и объем выполненных заданий. Кроме того, в NLab Marker встроены различные модули для работы с текстом и аудио. Например, модуль для дикторов позволяет им записывать аудио для синтеза речи, а модуль категоризации дает возможность присвоить категорию определенному тексту.

Сервис NLab Marker включает контроль качества на всех этапах процесса разметки и защиту персональных данных, поскольку платформу можно развернуть в защищенном контуре заказчика. Он также позволяет вычистить из готового датасета персональные данные, чтобы они не попали в открытый доступ.

В NLab Marker разработана система для организации и управления командой разметки: куратор распределяет задачи и инструкции по руководителям проектов или исполнителям, устанавливает сроки выполнения задач под конкретный проект. Сервис позволяет удаленно работать жителям отдаленных регионов, безработным, людям с ограниченными возможностями, что особенно актуально в нынешних условиях, когда в тренде удаленная работа с гибким графиком без привязки к рабочему месту.