Google представила ШІ для озвучування відео

Google представила ШІ для озвучування відео

Команда Google DeepMind представила інструмент для генерації саундтреків до відео за допомогою штучного інтелекту.

Як зазначають розробники, ШІ-моделі для створення відео розвиваються семимильними кроками, але здебільшого це “німі” відео. Технологія V2A (“video-to-audio”) дає змогу оживити їх.

Технологія дає можливість згенерувати музику в дусі ролика, звукові ефекти і навіть діалоги для персонажів за текстовим описом. ШІ-модель в основі технології навчали на базі звуків, розшифровок діалогів і відео.

Моделями для породження музики і звуків сьогодні нікого не здивуєш. Але за словами розробників V2A, відмінність їхньої технології в тому, що вона здатна розуміти відеоряд і автоматично синхронізувати згенерований аудіосупровід конкретно під нього з урахуванням запиту користувача.

У DeepMind визнають, що технологія небездоганна. А оскільки в навчальному датасеті було мало відео з артефактами та іншими дефектами, створювати аудіо для них у V2A виходить не дуже.