Microsoft представила новую модель для синтеза языка на основе нейросетевых алгоритмов. Она получила название VALL-E.
Главная фишка VALL-E – копирование голоса человека. Чтобы научиться копировать голос, нейросети требуется его запись продолжительностью всего три секунды.
Помимо сохранения вокального тембра и эмоций, VALL-E может имитировать «акустическую обстановку» — например, будто речь звучит как при телефонном звонке.
Технология основана на алгоритме EnCodec и обучена на 60 000 часах англоязычного языка от более 7000 носителей.
На специальном сайте Microsoft дает несколько десятков примеров работы VALL-E.