«VK Видео» улучшил распознавание речи на 25% благодаря ИИ

IT
17 сентября 2024

Сервис «VK Видео» интегрировал новейшие алгоритмы искусственного интеллекта для автоматического распознавания речи и создания субтитров в шоу, видеороликах, клипах и другом контенте. В результате точность анализа и расшифровки увеличилась на 25%, а нейросети теперь могут распознавать не просто тысячи новых слов. ИИ научился понимать мемы, профессиональные термины, имена собственные и даже акронимы.

Автоматические субтитры формируются с использованием ML-моделей, работающих с текстом, расставляющих знаки препинания и синхронизирующих их с видео. Для достижения высокой точности обработка аудиопоток выполняется в несколько этапов. Сначала нейросеть отфильтровывает посторонние шумы, далее распознает речь и переводит ее в текст.

Далее начинают действовать модели для пунктуации и денормализации, преобразуя набор распознанных слов в читабельный текст, который ИИ затем синхронизирует с аудиодорожкой. Благодаря этим улучшениям и в профессиональных роликах, и в любительских видео субтитры стали более понятными и удобными. Очень скоро нейросеть сможет разделять на отдельные реплики речь разных спикеров, это упростит восприятие субтитров.

В ближайшем будущем ИИ сможет разделять речь различных спикеров на отдельные реплики, что сделает проще восприятие и чтение субтитров. Популярность этой функции растет: доля тех, кто использует субтитры в веб-версии, увеличилась на 28 % за последний месяц, и теперь 11% всей аудитории «VK Видео» активно пользуются этой функцией.

Источник: CNews

Другие новости