
GPT-4.5 пройшов тест Тюрінга. Але чи означає це, що ШІ став «людським»?
Нове дослідження показало, що ChatGPT навчився імітувати людину краще за будь-яку іншу модель. Проте сам тест викликає багато питань.
ChatGPT на базі GPT-4.5 зумів переконати більшість учасників експерименту, що він є людиною. В ході недавнього дослідження, проведеного в Університеті Каліфорнії в Сан-Дієго, 73% учасників помилково визнали GPT-4.5 справжнім співрозмовником.
Повідомляє видання ScienceAlert.
Це один із найвищих показників в історії тесту Тюрінга. Останнього упродовж десятиліть вважають (або критикують) як спосіб перевірки “людяності” машинного інтелекту.
Як проходив тест
Дослідники Кемерон Джонс і Бенджамін Берген перевірили чотири мовні моделі: ELIZA, GPT-4o, LLaMa-3.1-405B та GPT-4.5. Учасники впродовж п’яти хвилин спілкувалися з двома співрозмовниками одночасно: одним із них була людина, іншим — штучний інтелект. Після розмови їм потрібно було визначити, хто є хто.
GPT-4.5 найчастіше помилково сприймали як людину. LLaMa-3.1 змогла ввести в оману 56% учасників. Найслабші результати показали ELIZA (23%) та GPT-4o (21%).
Що таке тест Тюрінга і чому він викликає питання
Оригінальний тест, запропонований Аланом Тюрінгом ще в середині XX століття, передбачав, що машина може вважатися розумною, якщо зможе переконати людину, що вона — також людина. З часом експеримент трансформувався у простіший сценарій: текстове спілкування з оцінкою «людськості» відповіді.
Проте багато науковців критикують тест за кількома напрямками:
- Він оцінює поведінку, а не розуміння чи мислення.
- Порівнює процеси мислення людей і машин, які за природою різні.
- Не враховує внутрішні механізми ухвалення рішень.
- Занадто вузький: один тип поведінки — не ознака загального інтелекту.
Що наразі це означає для ШІ
Попри те, що GPT-4.5 фактично пройшов тест Тюрінга, самі дослідники обережні у висновках. Вони стверджують, що тест показує лише здатність моделі імітувати людину, а не її справжній інтелект.
Умови дослідження також викликають запитання. Розмова тривала всього п’ять хвилин, а всі моделі використовували заздалегідь прописані “персони” — це могло вплинути на сприйняття. Крім того, GPT-4.5 все ще не розуміє контексту так глибоко, як людина, і не має свідомості.
GPT-4.5 навчився переконливо імітувати людину, але це ще не означає, що штучний інтелект став розумним у людському сенсі. Результати вказують радше на високий рівень текстової адаптації, ніж на досягнення справжнього мислення.
Тест Тюрінга, попри свій статус, залишається спірним інструментом, і нинішнє дослідження лише підтверджує це.
Нагадаємо, що Meta використовуватиме пости європейців для навчання ШІ.