Meta навчала свій штучний інтелект на 82 Тб піратських книг

Корпорація Meta опинилася в центрі гучного скандалу через ймовірне використання піратського контенту для тренування своїх штучних інтелектів. Судові документи свідчать, що компанія не обмежилася легальними базами даних, а завантажувала десятки тисяч книг із нелегальних ресурсів.

Внутрішнє листування співробітників підтверджує, що вони усвідомлювали ризики таких методів, але продовжували їх використовувати.

Згідно з матеріалами суду, Meta отримала 81,7 ТБ даних із сумнівних джерел:

54 ТБ із Z-Library – платформи, яку ФБР закрило у 2022 році

10 ТБ із LibGen – російської піратської бібліотеки

17,7 ТБ із Sci-Hub та інших ресурсів

Це еквівалент 25 мільйонам книг у PDF-форматі, що навіть перевищує фонд Бібліотеки Конгресу США, яка містить 17 мільйонів одиниць.

Ще в жовтні 2022 року один із провідних дослідників ШІ у Meta писав колегам, що використання піратських матеріалів виходить за межі етичних норм. Однак через три місяці Марк Цукерберг особисто схвалив продовження робіт і під час наради заявив: "Нам потрібно знайти спосіб розблокувати це".

Теги: штучний інтелект Meta