GPT-4.5 пройшов тест Тюрінга. Але чи означає це, що ШІ став «людським»?

GPT-4.5 пройшов тест Тюрінга. Але чи означає це, що ШІ став «людським»?

Нове дослідження показало, що ChatGPT навчився імітувати людину краще за будь-яку іншу модель. Проте сам тест викликає багато питань.

ChatGPT на базі GPT-4.5 зумів переконати більшість учасників експерименту, що він є людиною. В ході недавнього дослідження, проведеного в Університеті Каліфорнії в Сан-Дієго, 73% учасників помилково визнали GPT-4.5 справжнім співрозмовником.

Повідомляє видання ScienceAlert.

Це один із найвищих показників в історії тесту Тюрінга. Останнього упродовж десятиліть вважають (або критикують) як спосіб перевірки “людяності” машинного інтелекту.

Як проходив тест

Дослідники Кемерон Джонс і Бенджамін Берген перевірили чотири мовні моделі: ELIZA, GPT-4o, LLaMa-3.1-405B та GPT-4.5. Учасники впродовж п’яти хвилин спілкувалися з двома співрозмовниками одночасно: одним із них була людина, іншим — штучний інтелект. Після розмови їм потрібно було визначити, хто є хто.

GPT-4.5 найчастіше помилково сприймали як людину. LLaMa-3.1 змогла ввести в оману 56% учасників. Найслабші результати показали ELIZA (23%) та GPT-4o (21%).

Що таке тест Тюрінга і чому він викликає питання

Оригінальний тест, запропонований Аланом Тюрінгом ще в середині XX століття, передбачав, що машина може вважатися розумною, якщо зможе переконати людину, що вона — також людина. З часом експеримент трансформувався у простіший сценарій: текстове спілкування з оцінкою «людськості» відповіді.

Проте багато науковців критикують тест за кількома напрямками:

  • Він оцінює поведінку, а не розуміння чи мислення.
  • Порівнює процеси мислення людей і машин, які за природою різні.
  • Не враховує внутрішні механізми ухвалення рішень.
  • Занадто вузький: один тип поведінки — не ознака загального інтелекту.

Що наразі це означає для ШІ 

Попри те, що GPT-4.5 фактично пройшов тест Тюрінга, самі дослідники обережні у висновках. Вони стверджують, що тест показує лише здатність моделі імітувати людину, а не її справжній інтелект.

Умови дослідження також викликають запитання. Розмова тривала всього п’ять хвилин, а всі моделі використовували заздалегідь прописані “персони” — це могло вплинути на сприйняття. Крім того, GPT-4.5 все ще не розуміє контексту так глибоко, як людина, і не має свідомості.

GPT-4.5 навчився переконливо імітувати людину, але це ще не означає, що штучний інтелект став розумним у людському сенсі. Результати вказують радше на високий рівень текстової адаптації, ніж на досягнення справжнього мислення.

Тест Тюрінга, попри свій статус, залишається спірним інструментом, і нинішнє дослідження лише підтверджує це.

Нагадаємо, що Meta використовуватиме пости європейців для навчання ШІ.