Дослідники з Каліфорнійського університету в Берклі здійснили прорив у галузі штучного інтелекту, створивши репліку основних можливостей моделі DeepSeek R1-Zero всього за $30.
Їхній проект під назвою TinyZero доводить, що просунуті моделі міркувань штучного інтелекту не обов’язково повинні коштувати цілий статок, відкриваючи нові можливості для досліджень і розробок у цій сфері. Про це повідомляє видання GizmoChina.
Група дослідників на чолі з Цзяї Пан застосувала підхід на основі навчання з підкріпленням (RL) для відтворення моделі міркувань DeepSeek. Замість дорогих хмарних сервісів і величезних обчислювальних потужностей, TinyZero навчався з використанням базової мовної моделі, простого запиту і системи винагороди.
Цзяї Пан також підкреслив, що TinyZero є першим відкритим відтворенням моделей міркувань, яке демонструє, як модель вчиться перевіряти і покращувати власні відповіді.
Для тестування моделі використовувалася гра Countdown, у якій гравцям необхідно досягти цільового числа, використовуючи основні математичні операції. На початковому етапі TinyZero давав випадкові відповіді, але з часом навчився перевіряти їх, шукати оптимальніші рішення і коригувати свої дії.
Під час експериментів використовувалися моделі з різною кількістю параметрів – від 500 мільйонів до 7 мільярдів. Результати показали, що менші моделі (0,5 млрд параметрів) просто видавали випадкові відповіді, тоді як більші моделі (1,5 млрд+ параметрів) навчилися самоперевірятися, покращувати рішення і значно підвищили точність.
Поява TinyZero за $30 означає, що тепер будь-хто, а не тільки великі технологічні компанії, може експериментувати з моделями міркувань штучного інтелекту без значних фінансових витрат.