OpenAI: ШІ частіше придумує відповіді, ніж відповідає по суті

OpenAI представила новий бенчмарк під назвою SimpleQA для оцінювання точності відповідей своїх і конкуруючих моделей ШІ.

Результати показали, що навіть її найпросунутіший алгоритм o1-preview, випущений нещодавно, досяг лише 42.7% правильних відповідей. Це означає, що сучасні великі мовні моделі (LLMs) частіше надають невірні дані, ніж правдиві.

Модель Claude-3.5-sonnet від конкурента Anthropic показала ще нижчий результат – 28.9% правильних відповідей. Однак вона частіше визнає свою невпевненість і відмовляється відповідати, що іноді краще, ніж пропонувати потенційно помилкові відповіді.

Сайти Шевченківського райсуду Києва та системи Prozorro зазнали кібератак

Николай Шелудько·Monday January 17th, 2022 246

Дослідження також показало, що моделі часто переоцінюють свої здібності, будучи впевненими у своїх помилкових відповідях, що посилює проблему «галюцинацій» – надання завідомо невірної інформації.

OpenAI: ШІ частіше придумує відповіді, ніж відповідає по суті

Сайти Шевченківського райсуду Києва та системи Prozorro зазнали кібератак

SUBSCRIBE