В Microsoft разработали нейросеть, способную синтезировать голос любого человека

Microsoft представила новую модель для синтеза языка на основе нейросетевых алгоритмов. Она получила название VALL-E.

Главная фишка VALL-E – копирование голоса человека. Чтобы научиться копировать голос, нейросети требуется его запись продолжительностью всего три секунды.

Помимо сохранения вокального тембра и эмоций, VALL-E может имитировать «акустическую обстановку» — например, будто речь звучит как при телефонном звонке.

Технология основана на алгоритме EnCodec и обучена на 60 000 часах англоязычного языка от более 7000 носителей.

Рівень вуглекислого газу у атмосфері Землі став найвищим за останні 14 млн років, — дослідження

Николай Шелудько·Пятница Декабрь 8th, 2023 509

На специальном сайте Microsoft дает несколько десятков примеров работы VALL-E.

В Microsoft разработали нейросеть, способную синтезировать голос любого человека

Рівень вуглекислого газу у атмосфері Землі став найвищим за останні 14 млн років, — дослідження

SUBSCRIBE