Автопілот Tesla плутає Місяць з жовтим сигналом світлофора

Вчені створили модель керування автомобілем за допомогою голосу

Дослідники з Університету Макао створили нову модель керування автономним автомобілем за допомогою голосових команд. Розробка об’єднує комп’ютерний зір, розуміння природної мови та потужні мовні моделі.

Науковці зазначають, що люди поки що з побоюванням ставляться до повного передання керування машинам. Голосовий помічник дасть змогу пасажирам давати вказівки автомобілю, підвищуючи довіру до автономного транспорту.

Складність полягає в тому, щоб навчити систему розуміти природну мову і пов’язувати її з обстановкою на дорозі. Дослідники використовували набір даних Talk2Car, де потрібно вказувати на ділянки дороги, виходячи з текстових інструкцій.

Для вирішення цього завдання створено модель CAVG. Вона використовує комп’ютерний зір для виділення областей на зображенні з камери, а потім аналізує їх відповідність командам. Особливу увагу приділено розумінню емоційного контексту команд і складних ситуацій на дорозі. У моделі застосовуються сучасні мовні технології, на кшталт GPT-4V, для точної інтерпретації команд.

Для перевірки ефективності модель випробовували в складних умовах: вночі, у щільному міському потоці, з неоднозначними командами і поганою видимістю.

CAVG показала високі результати, перевершивши наявні рішення. Дослідження планують розвивати, додаючи в систему більше видів даних, на кшталт вигляду зверху (з висоти пташиного польоту) та інформації про траєкторію руху. Це дасть змогу підвищити точність керування і зробити автономні автомобілі ще надійнішими.