Оцінка під питанням: Meta використовувала іншу версію Maverick для тестів LM Arena

Оцінка під питанням: Meta використовувала іншу версію Maverick для тестів LM Arena

Модель посіла друге місце в тесті LM Arena, де тестувальники власноруч тестують мовні моделі й обирають найкращі. Однак не все однозначно.

В минувшу суботу, 5 квітня, компанія Meta випустили одну з нових флагманських AI-моделей. Її назва Maverick. Модель посіла друге місце в тесті LM Arena, де тестувальники власноруч тестують мовні моделі й обирають найкращі. Однак не все однозначно.

Як повідомляють TechCrunch, є ймовірність, що версія Maverick для тестування відрізняється від тієї, яка доступна всім. 

Кілька ШІ дослідників у соцмережі X написали, що Meta вказала у своєму оголошенні, що Maverick на LM Arena є "експериментальною чат-версією". Проте на офіційному веб-сайті Llama є діаграма, де зазначено, що тестування Meta на LM Arena проводилося з використанням «Llama 4 Maverick, оптимізованої для ведення діалогу».

for some reason, the Llama 4 model in Arena uses a lot more Emojis

on together . ai, it seems better: pic.twitter.com/f74ODX4zTt

— Tech Dev Notes (@techdevnotes) April 6, 2025

Ба більше, вони помітили разючі відмінності в поведінці загальнодоступної версії Maverick та тієї, яка розміщена на LM Arena. Остання версія використовує багато емодзі та дає багатослівні відповіді.

Як раніше зазначав TechCrunch, LM Arena ніколи не була найточнішим показником продуктивності ШІ-моделей з різних причин. Проте компанії, які розробляють ШІ, зазвичай не налаштовували свої моделі спеціально для отримання кращих результатів на LM Arena. Або не визнавали цього.

Проблема в тому, що коли модель спеціально налаштовують для тесту, а потім дають іншу версію, розробники не можуть точно зрозуміти, як вона поводитиметься в реальних умовах. Це вводить в оману. Як зазначає джерело, в ідеалі тести мають показувати сильні й слабкі сторони однієї моделі в різних завданнях.

Справді, дослідники у X помітили разючі відмінності в поведінці загальнодоступного Maverick порівняно з моделлю, розміщеною на LM Arena. Версія LM Arena, схоже, використовує багато емодзі та дає неймовірно багатослівні відповіді.

Як зазначили TechCrunch, вони звернулись за коментарем  до Meta та Chatbot Arena. Остання є організацією, яка відповідає за LM Arena.