Благодаря искусственному интеллекту точность автоматических субтитров в «VK Видео» выросла на 25%. На платформе запущены новые алгоритмы ИИ для распознавания речи и синтеза субтитров в роликах, шоу, клипах и другом контенте.
Кроме того, нейросети стремительно учатся и все лучше понимают речь человека, знают тысячи новых слов, среди которых есть и имена собственные, и профессиональные термины, и аббревиатуры. ИИ справляется даже с мемами. Скоро искусственный интеллект научится разделять речь разных спикеров на отдельные реплики, что еще больше повысит качество субтитров.
Технология удобна для просмотра видео в случаях, когда требуется беззвучный режим. Вместе с тем востребованы субтитры и среди людей с нарушением слуха. За последний месяц доля пользователей технологии выросла на 28 %, и субтитры включают 11 % всей аудитории «VK Видео».
Для генерации автоматических субтитров применяются ML-модели. Они создают текст и, расставив знаки препинания, синхронизируют его с видео. Точность обеспечивается многоэтапной обработкой аудиопотока. Первое, что делает нейросеть – убирает посторонние шумы и распознает речь, переводя ее в набор фраз. Затем подключаются модели пунктуации и денормализации, задача которых – создать из распознанных слов хорошо читаемый текст. И только потом ИИ получившийся текст синхронизирует с аудиодорожкой.
Подобная технология позволяет сделать качественные субтитры и в профессиональных, и любительских видео.
Источник: CNews