Microsoft представила нову модель синтезу мови, засновану на алгоритмах нейронної мережі. Вона називається Vall-E.
Основна особливість Vall-E-це копія голосу людини. Щоб навчитися копіювати голос, нейронній мережі достатньо лише три секунди запису голосу людини.
Окрім збереження голосового тембру та емоцій, Vall-E може копіювати«акустичну ситуацію»-наприклад, ніби мова звучить як у телефонному дзвінку.
Ця технологія заснована на алгоритмі Encodec й прошла навчання на 60 000 годин розмов більш ніж 7000 носіїв англійської мови.
На спеціальному веб-сайті Microsoft наводить кілька десятків прикладів результату роботи Vall-E.