Розробники створили за $50 ШІ-модель, що конкурує з OpenAI

Дослідники зі Стенфорда і Вашингтонського університету розробили модель штучного інтелекту s1, здатну до міркування, всього за $50. Ця модель, як стверджується, конкурує з провідними моделями, такими як o1 від OpenAI і R1 від DeepSeek, у тестах на математичні та програмні навички. Команда, яка розробила s1, використовувала готову базову модель і доопрацювала її за допомогою дистиляції, процесу, який витягує здібності до міркування з іншої ШІ-моделі шляхом навчання на її відповідях. Модель s1 була дистильована з Gemini 2.0 Flash Thinking Experimental від Google, цей самий метод використовували дослідники з Берклі для створення аналогічної моделі за $450 минулого місяця. Для навчання s1 було створено набір даних усього з 1000 запитань і відповідей з обґрунтуваннями, отриманими від Gemini. Навчання тривало менше ніж 30 хвилин з використанням 16 графічних процесорів Nvidia H100, а загальна вартість склала менше ніж $50. За словами Нікласа Мюннігхоффа, дослідника зі Стенфорда, який брав участь у проекті, необхідну обчислювальну потужність можна орендувати приблизно за $20. Цей прорив викликає питання про комерціалізацію ШІ-моделей. Якщо невеликі групи можуть відтворити дорогі моделі з мінімальними інвестиціями, це ставить під сумнів концепцію патентованої переваги в індустрії ШІ. OpenAI, наприклад, звинуватила DeepSeek у неправомірному зборі даних зі свого API для цілей дистиляції. Модель s1 показує, що моделі міркування можна дистилювати з використанням відносно невеликого набору даних за допомогою контрольованого тонкого налаштування (SFT). Цей підхід є більш економічним методом порівняно з великомасштабним навчанням із підкріпленням. SFT дає змогу ШІ-моделям імітувати певну поведінку в наборі даних, досягаючи високої продуктивності міркувань із меншими витратами. Проте експерти стверджують, що, хоча методи дистиляції можуть відтворювати наявні моделі, вони не обов'язково призведуть до проривних досягнень у продуктивності ШІ. Великі ШІ-компанії, такі як Meta, Google і Microsoft, планують інвестувати мільярди в інфраструктуру ШІ, але s1 демонструє, як невеликі інновації розширюють межі можливостей ШІ. Модель s1, а також дані і код для її навчання, тепер доступні на GitHub.

Теги: штучний інтелект OpenAI ChatGPT