Як повідомляється, OpenAI готується до запуску Operator на цьому тижні. Operator – це назва “комп’ютерного агента”, який може виконувати завдання у веб-браузері користувача від його імені. Інші компанії, зокрема Google та Anthropic, розробляють подібних “агентів”, сподіваючись, що вони стануть наступним великим стрибком на шляху до того, щоб ШІ виконав свою обіцянку – зміг виконувати завдання, які зараз виконує людина.
За даними видання The Information, яке першим повідомило про майбутній запуск, Operator надаватиме користувачам запропоновані підказки в таких категоріях, як подорожі, ресторани та події. Наприклад, користувачі можуть попросити оператора знайти хороший рейс з Нью-Йорка до Мауї, який не приземлиться надто пізно ввечері. Оператор не завершить транзакцію – користувач залишиться в циклі і завершить процес оформлення замовлення.
Легко уявити, яким чином Operator може бути корисним. Люди похилого віку, які не мають навичок роботи з комп’ютером, можуть попросити Оператора допомогти їм надіслати електронний лист і побачити, як він перейде до Gmail і відкриє для них вікно для написання тексту. Технічно підковані люди не потребують такої допомоги, але людям старшого покоління часто важко орієнтуватися в Інтернеті, і для них виконання навіть простих завдань є проблемою. Боти можуть допомогти і в інших сферах, наприклад, у тестуванні якості, коли компаніям потрібно перевірити, чи працюють їхні нові веб-сайти або послуги належним чином.
Такі агенти, як Operator, по суті, працюють, роблячи скріншоти браузера користувача і надсилаючи зображення назад в OpenAI для аналізу. Як тільки його моделі визначають наступний крок, необхідний для виконання завдання, браузеру надсилається команда перемістити і клацнути мишею на відповідну ціль або ввести текст у поле введення. Він використовує переваги мультимодальної технології OpenAI та інших розробників, які можуть інтерпретувати різні форми введення, в даному випадку текст і зображення.