Оцінка під питанням: Meta використовувала іншу версію Maverick для тестів LM Arena

Модель посіла друге місце в тесті LM Arena, де тестувальники власноруч тестують мовні моделі й обирають найкращі. Однак не все однозначно.

В минувшу суботу, 5 квітня, компанія Meta випустили одну з нових флагманських AI-моделей. Її назва Maverick. Модель посіла друге місце в тесті LM Arena, де тестувальники власноруч тестують мовні моделі й обирають найкращі. Однак не все однозначно.

Як повідомляють TechCrunch, є ймовірність, що версія Maverick для тестування відрізняється від тієї, яка доступна всім.

Кілька ШІ дослідників у соцмережі X написали, що Meta вказала у своєму оголошенні, що Maverick на LM Arena є "експериментальною чат-версією". Проте на офіційному веб-сайті Llama є діаграма, де зазначено, що тестування Meta на LM Arena проводилося з використанням «Llama 4 Maverick, оптимізованої для ведення діалогу».

for some reason, the Llama 4 model in Arena uses a lot more Emojis

on together . ai, it seems better: pic.twitter.com/f74ODX4zTt
— Tech Dev Notes (@techdevnotes) April 6, 2025

Ба більше, вони помітили разючі відмінності в поведінці загальнодоступної версії Maverick та тієї, яка розміщена на LM Arena. Остання версія використовує багато емодзі та дає багатослівні відповіді.

Як раніше зазначав TechCrunch, LM Arena ніколи не була найточнішим показником продуктивності ШІ-моделей з різних причин. Проте компанії, які розробляють ШІ, зазвичай не налаштовували свої моделі спеціально для отримання кращих результатів на LM Arena. Або не визнавали цього.

Проблема в тому, що коли модель спеціально налаштовують для тесту, а потім дають іншу версію, розробники не можуть точно зрозуміти, як вона поводитиметься в реальних умовах. Це вводить в оману. Як зазначає джерело, в ідеалі тести мають показувати сильні й слабкі сторони однієї моделі в різних завданнях.

Справді, дослідники у X помітили разючі відмінності в поведінці загальнодоступного Maverick порівняно з моделлю, розміщеною на LM Arena. Версія LM Arena, схоже, використовує багато емодзі та дає неймовірно багатослівні відповіді.

Як зазначили TechCrunch, вони звернулись за коментарем до Meta та Chatbot Arena. Остання є організацією, яка відповідає за LM Arena.

Теги: ШІ Meta AI

Слідкуйте за нами

ШІ Meta AI

Новини

Справа Тетяни Кіньколих: як бухгалтерка збанкрутілого БГ Банк намагається втекти від відповідальності за махінації

понеділок, 25 серпня 2025 р.

Новини

Справа Тетяни Кіньколих: як бухгалтерка збанкрутілого БГ Банк намагається втекти від відповідальності за махінації

Махінації в БГ Банк: суд знову відмовив ексбухгалтерці Тетяні Кіньколих в угоді зі слідством

Китайська багаторазова ракета розбилася під час тестового запуску

четвер, 7 серпня 2025 р.

Новини

Китайська багаторазова ракета розбилася під час тестового запуску

Ракета впала під час випробування вертикального зльоту та посадки у Внутрішній Монголії.

США хочуть використовувати ядерні розробки для освоєння Місяця – Politico

середу, 6 серпня 2025 р.

Новини

США хочуть використовувати ядерні розробки для освоєння Місяця – Politico

Новий очільник NASA Шон Даффі оголосив про прискорення будівництва ядерного реактора на Місяці та плани замінити МКС, щоб утвердити США в новій космічній гонці.

Оцінка під питанням: Meta використовувала іншу версію Maverick для тестів LM Arena

Слідкуйте за нами

Популярні новини

Новини

Справа Тетяни Кіньколих: як бухгалтерка збанкрутілого БГ Банк намагається втекти від відповідальності за махінації

Китайська багаторазова ракета розбилася під час тестового запуску

США хочуть використовувати ядерні розробки для освоєння Місяця – Politico