Группа компаний ЦРТ (входит в экосистему Сбербанка) представила третье поколение технологии синтеза речи. Главное преимущество новейшего синтеза речи в том, что он обеспечивает плавность и выразительность прочтения любого текста на целевом языке. Высококачественный аудиосигнал генерируют сложные нейросетевые модели. В технологии также есть модуль предсказания ударений в словах, которых еще нет в базовом словаре синтеза, а также автоматическое исправление типичных орфографических ошибок. Благодаря глубокому лингвистическому анализу текста произношение будет соответствовать нормам языка даже в сложных случаях.

Для высококачественного синтеза теперь не требуются дорогостоящие серверы. Использовать технологию можно через облачный сервис или встроив в свое решение. В автоматизированных сценариях общения с клиентами технология позволяет взаимодействовать в индивидуальном порядке с каждым абонентом, так как нет фиксированных сообщений, и любой текст может быть синтезирован в процессе звонка.

По результатам опроса населения, который проводился с помощью специализированных систем в анонимном режиме, качество синтеза речи получило оценку 4,7 баллов по пятибалльной шкале. Для сравнения использовались системы синтеза речи от основных конкурентов и живой человек.

Как комментируют в ЦРТ, в третьем поколении решений реализован запрос на естественность, а в следующей итерации разработки будет реализована возможность управлять спектром эмоций синтезированного голоса.