OpenAI представила новий бенчмарк під назвою SimpleQA для оцінювання точності відповідей своїх і конкуруючих моделей ШІ.
Результати показали, що навіть її найпросунутіший алгоритм o1-preview, випущений нещодавно, досяг лише 42.7% правильних відповідей. Це означає, що сучасні великі мовні моделі (LLMs) частіше надають невірні дані, ніж правдиві.
Модель Claude-3.5-sonnet від конкурента Anthropic показала ще нижчий результат – 28.9% правильних відповідей. Однак вона частіше визнає свою невпевненість і відмовляється відповідати, що іноді краще, ніж пропонувати потенційно помилкові відповіді.
Дослідження також показало, що моделі часто переоцінюють свої здібності, будучи впевненими у своїх помилкових відповідях, що посилює проблему «галюцинацій» – надання завідомо невірної інформації.