
Дослідники довели: моделі OpenAI вивчали тексти з порушенням авторських прав
Дослідники виявили, що GPT-4 може відтворювати уривки з книжок і статей, на яких її навчали — включно з контентом, захищеним авторським правом. Це викликає питання до прозорості OpenAI.
Дослідники з університетів Вашингтона, Копенгагена та Стенфорда знайшли спосіб виявити, на яких саме даних навчали моделі OpenAI.
Як йдеться в методі, який опублікували у сервісі препринтів arXiv, великі мовні моделі, як GPT-4 можуть буквально “запам’ятовувати” тексти. Це порушує авторські права.
На відміну від генераторів зображень, мовні моделі здатні дослівно відтворювати уривки з текстів, на яких їх тренували. Щоб це довести, дослідники запропонували GPT-3.5 і GPT-4 вставити пропущені слова в уривки з книжок і статей The New York Times. У деяких випадках моделі впізнавали ці фрагменти надто точно. Відповідно, бачили їх раніше.
GPT-4, зокрема, показала знання уривків з книг, що входять до набору BookMIA — колекції електронних книжок, захищених авторським правом. Модель також демонструвала знайомство з матеріалами NYT, хоча менш точно.
Ці результати можуть стати серйозним доказом у судових позовах проти OpenAI, яку звинувачують у використанні текстів і коду без згоди авторів. Компанія вже уклала кілька ліцензійних угод і пропонує авторам інструменти для захисту свого контенту. Але водночас OpenAI лобіює зміни в законодавстві, які дозволили б легально тренувати ШІ на захищених даних.