Корпорация NVIDIA анонсировала платформу Maxine, которая предоставляет разработчикам облачное GPU-ускоренное ПО на базе искусственного интеллекта для видеоконференций, созданное для улучшения потокового видео.

NVIDIA Maxine – это облачная платформа для потоковой передачи видео, с помощью которой провайдеры ВКС могут предложить пользователям новые возможности ИИ, включая коррекцию взгляда, сверхвысокое разрешение, шумоподавление, повторное освещение лица и другие. Так как данные обрабатываются в облаке, а не локально, то эти возможности доступны пользователям без специального аппаратного обеспечения.

Платформа Maxine заметно уменьшает требуемую для видеозвонков полосу пропускания. Вместо потоковой передачи всех пикселей экрана умное ПО анализирует ключевые черты лица каждого человека, участвующего в звонке, и затем интеллектуально воссоздает лицо с другой стороны. Это позволяет сильно сократить объем данных потокового видео, пересылаемых туда и обратно. Используя новую технологию сжатия видео на основе ИИ, работающую на графических процессорах NVIDIA, разработчики могут снизить нагрузку на полосу пропускания до одной десятой от требований стандарта сжатия потокового видео H.264. Это сократит расходы и обеспечит более плавную видеоконференцию для пользователей.

Поставщики услуг ВКС смогут воспользоваться исследованиями NVIDIA в генеративно-состязательных сетях (GAN), чтобы предложить множество новых функций. Например, функция выравнивания лица позволяет автоматически выравнивать позицию лица так, чтобы казалось, что во время разговора люди смотрят друг другу в лицо, а функция коррекции взгляда помогает имитировать зрительный контакт, даже если камера не совмещена с экраном пользователя.

Разработчики также могут добавлять функции, которые позволяют участникам звонка выбирать собственные анимированные аватары с реалистичной анимацией, автоматически управляемой их голосом и эмоциональным тоном в реальном времени. Опция автоматического кадра позволяет видеопотоку отслеживать того, кто говорит в данный момент, даже если он удаляется от экрана.

Используя функции диалогового ИИ на базе SDK NVIDIA Jarvis, разработчики могут интегрировать виртуальных помощников, использующих современные языковые модели ИИ для распознавания речи, понимания языка и генерации речи. Виртуальные помощники могут делать заметки, задавать действия и отвечать на вопросы человеческим голосом. Дополнительные сервисы диалогового ИИ, такие как переводы, субтитры и транскрипция, помогают участникам понять, что обсуждается во время видеоконференции.

Чтобы разработчики могли масштабировать свои услуги в соответствии с текущими потребностями, NVIDIA Maxine использует микросервисы ИИ, работающие в кластерах контейнеров Kubernetes на графических процессорах NVIDIA. Пользователи могут запускать несколько функций ИИ одновременно, не превышая требований приложений по задержкам. Поставщики услуг видеоконференций могут предоставить возможности ИИ сотням тысяч пользователей, выполняя инференс на графических процессорах NVIDIA в облаке. Модульная конструкция платформы Maxine позволяет разработчикам легко выбирать возможности ИИ для интеграции в свои решения для ВКС.

Платформа Maxine объединяет технологии из нескольких SDK NVIDIA и API. В дополнение к NVIDIA Jarvis платформа также использует SDK NVIDIA DeepStream для высокоскоростной потоковой передачи аудио и видео и SDK NVIDIA TensorRTTM для высокопроизводительного инференса.

Возможности ИИ для аудио, видео и естественного языка в SDK NVIDIA, используемом в платформе Maxine, были разработаны в ходе сотен тысяч учебных часов на системах NVIDIA DGXTM – платформе для обучения, инференса и обработки данных.

Разработчики ИИ-приложений компьютерного зрения, партнеры по программному обеспечению, стартапы и производители компьютеров, создающие аудио- и видеоприложения и сервисы, могут подать заявку на ранний доступ к платформе NVIDIA Maxine.