Новітня модель штучного інтелекту OpenAI, o3, досягла виняткового результату, набравши 85% на тесті ARC-AGI, який оцінює «загальний інтелект». Це значно перевищує попередній рекорд для ШІ у 55% і відповідає середньому рівню людини, пише NoWorries.
Успіх демонструє важливий крок до створення штучного загального інтелекту (AGI), підкреслюючи здатність системи вирішувати нові завдання, використовуючи мінімум прикладів — рису, що вважається фундаментальною для справжнього інтелекту, інформує Techxplore.
Тест ARC-AGI перевіряє здатність знаходити й застосовувати правила для розв’язання задач із сітчастими візерунками, подібно до тестів IQ. На відміну від традиційних моделей ШІ, які вимагають великих обсягів даних, o3 продемонстрував високу адаптивність, визначаючи «простіші» або загальніші правила, які можна застосовувати до нових сценаріїв. Така адаптивність є ключовою ознакою потенційного AGI.
Дослідники припускають, що o3 може використовувати метод, схожий на підхід AlphaGo від Google, досліджуючи «ланцюжки думок» — програми, які представляють можливі рішення, — і вибираючи найпростіші або загальні варіанти. Завдяки цьому підходу модель здатна вирішувати завдання, що виходять за межі жорстких рамок традиційних ШІ-систем. Хоча OpenAI оптимізувала o3 спеціально для тесту ARC-AGI, загальні механізми та можливості моделі поки що залишаються не до кінця зрозумілими.
Прорив викликає питання про те, наскільки близька o3 до справжнього AGI. Є ймовірність, що успіх пов’язаний із вузькоспеціалізованим навчанням, а не з фундаментальним покращенням розуміння концепцій. Для остаточного визначення її рівня потрібні ширші оцінки, які включатимуть аналіз адаптивності моделі в різних завданнях та умовах.
Якщо o3 дійсно наблизився до AGI, це може революціонізувати галузь, запустивши еру штучного інтелекту, що може навчатися самостійно і мати потужний економічний і технологічний вплив. А проте, це також вимагатиме створення нових стандартів і правил для регулювання AGI. У разі ж, якщо успіх обмежується конкретним тестом, досягнення все одно залишається значним, хоча його практичні наслідки для повсякденного життя наразі можуть бути обмеженими.