Meta навчала свій штучний інтелект на 82 Тб піратських книг

Meta навчала свій штучний інтелект на 82 Тб піратських книг

Meta навчала свій штучний інтелект на 82 Тб піратських книг

Корпорація Meta опинилася в центрі гучного скандалу через ймовірне використання піратського контенту для тренування своїх штучних інтелектів. Судові документи свідчать, що компанія не обмежилася легальними базами даних, а завантажувала десятки тисяч книг із нелегальних ресурсів.


Внутрішнє листування співробітників підтверджує, що вони усвідомлювали ризики таких методів, але продовжували їх використовувати.


Згідно з матеріалами суду, Meta отримала 81,7 ТБ даних із сумнівних джерел:




  • 54 ТБ із Z-Library – платформи, яку ФБР закрило у 2022 році

  • 10 ТБ із LibGen – російської піратської бібліотеки

  • 17,7 ТБ із Sci-Hub та інших ресурсів


Це еквівалент 25 мільйонам книг у PDF-форматі, що навіть перевищує фонд Бібліотеки Конгресу США, яка містить 17 мільйонів одиниць.

Ще в жовтні 2022 року один із провідних дослідників ШІ у Meta писав колегам, що використання піратських матеріалів виходить за межі етичних норм. Однак через три місяці Марк Цукерберг особисто схвалив продовження робіт і під час наради заявив: "Нам потрібно знайти спосіб розблокувати це".