Microsoft инвестирует $500 млн в облачные сервисы в Украине

В Microsoft разработали нейросеть, способную синтезировать голос любого человека

Microsoft представила новую модель для синтеза языка на основе нейросетевых алгоритмов. Она получила название VALL-E.

Главная фишка VALL-E – копирование голоса человека. Чтобы научиться копировать голос, нейросети требуется его запись продолжительностью всего три секунды.

Помимо сохранения вокального тембра и эмоций, VALL-E может имитировать «акустическую обстановку» — например, будто речь звучит как при телефонном звонке.

Технология основана на алгоритме EnCodec и обучена на 60 000 часах англоязычного языка от более 7000 носителей.

На специальном сайте Microsoft дает несколько десятков примеров работы VALL-E.

Content Protection by DMCA.com