Сервис «VK Видео» интегрировал новейшие алгоритмы искусственного интеллекта для автоматического распознавания речи и создания субтитров в шоу, видеороликах, клипах и другом контенте. В результате точность анализа и расшифровки увеличилась на 25%, а нейросети теперь могут распознавать не просто тысячи новых слов. ИИ научился понимать мемы, профессиональные термины, имена собственные и даже акронимы.
Автоматические субтитры формируются с использованием ML-моделей, работающих с текстом, расставляющих знаки препинания и синхронизирующих их с видео. Для достижения высокой точности обработка аудиопоток выполняется в несколько этапов. Сначала нейросеть отфильтровывает посторонние шумы, далее распознает речь и переводит ее в текст.
Далее начинают действовать модели для пунктуации и денормализации, преобразуя набор распознанных слов в читабельный текст, который ИИ затем синхронизирует с аудиодорожкой. Благодаря этим улучшениям и в профессиональных роликах, и в любительских видео субтитры стали более понятными и удобными. Очень скоро нейросеть сможет разделять на отдельные реплики речь разных спикеров, это упростит восприятие субтитров.
В ближайшем будущем ИИ сможет разделять речь различных спикеров на отдельные реплики, что сделает проще восприятие и чтение субтитров. Популярность этой функции растет: доля тех, кто использует субтитры в веб-версии, увеличилась на 28 % за последний месяц, и теперь 11% всей аудитории «VK Видео» активно пользуются этой функцией.
Источник: CNews