Microsoft розробили нейронну мережу, здатну синтезувати голос будь-якої людини

Microsoft представила нову модель синтезу мови, засновану на алгоритмах нейронної мережі. Вона називається Vall-E.

Основна особливість Vall-E-це копія голосу людини. Щоб навчитися копіювати голос, нейронній мережі достатньо лише три секунди запису голосу людини.

Окрім збереження голосового тембру та емоцій, Vall-E може копіювати«акустичну ситуацію»-наприклад, ніби мова звучить як у телефонному дзвінку.

Ця технологія заснована на алгоритмі Encodec й прошла навчання на 60 000 годин розмов більш ніж 7000 носіїв англійської мови.

Николай Шелудько·Tuesday November 16th, 2021 236

На спеціальному веб-сайті Microsoft наводить кілька десятків прикладів результату роботи Vall-E.

SUBSCRIBE