OpenAI запускає ШІ Operator, який може керувати комп’ютером

OpenAI запускає ШІ Operator, який може керувати комп’ютером

OpenAI запускає ШІ Operator, який може керувати комп’ютером

Як повідомляється, OpenAI готується до запуску Operator на цьому тижні. Operator – це назва "комп’ютерного агента", який може виконувати завдання у веб-браузері користувача від його імені. Інші компанії, зокрема Google та Anthropic, розробляють подібних “агентів”, сподіваючись, що вони стануть наступним великим стрибком на шляху до того, щоб ШІ виконав свою обіцянку – зміг виконувати завдання, які зараз виконує людина. За даними видання The Information, яке першим повідомило про майбутній запуск, Operator надаватиме користувачам запропоновані підказки в таких категоріях, як подорожі, ресторани та події. Наприклад, користувачі можуть попросити оператора знайти хороший рейс з Нью-Йорка до Мауї, який не приземлиться надто пізно ввечері. Оператор не завершить транзакцію – користувач залишиться в циклі і завершить процес оформлення замовлення. Легко уявити, яким чином Operator може бути корисним. Люди похилого віку, які не мають навичок роботи з комп’ютером, можуть попросити Оператора допомогти їм надіслати електронний лист і побачити, як він перейде до Gmail і відкриє для них вікно для написання тексту. Технічно підковані люди не потребують такої допомоги, але людям старшого покоління часто важко орієнтуватися в Інтернеті, і для них виконання навіть простих завдань є проблемою. Боти можуть допомогти і в інших сферах, наприклад, у тестуванні якості, коли компаніям потрібно перевірити, чи працюють їхні нові веб-сайти або послуги належним чином.
Так звані “агенти використання комп’ютерів” несуть у собі потенційні ризики. Ми вже бачили, як один стартап представив веб-навігаційного бота для автоматизації процесу розміщення маркетингового спаму на Reddit. Боти, які беруть під контроль клієнта-кінцевого користувача, здатні обходити обмеження API, призначені для блокування автоматизації. Стартапам, які займаються розробкою штучного інтелекту, доведеться вжити певних заходів для боротьби зі зловживаннями, інакше веб-сайти стануть ще більш заваленими спамом, ніж вони є сьогодні. Такі агенти, як Operator, по суті, працюють, роблячи скріншоти браузера користувача і надсилаючи зображення назад в OpenAI для аналізу. Як тільки його моделі визначають наступний крок, необхідний для виконання завдання, браузеру надсилається команда перемістити і клацнути мишею на відповідну ціль або ввести текст у поле введення. Він використовує переваги мультимодальної технології OpenAI та інших розробників, які можуть інтерпретувати різні форми введення, в даному випадку текст і зображення.