Творець ChatGPT заявив, що сам побоюється його можливостей

OpenAI запускає ШІ Operator, який може керувати комп’ютером

Як повідомляється, OpenAI готується до запуску Operator на цьому тижні. Operator – це назва “комп’ютерного агента”, який може виконувати завдання у веб-браузері користувача від його імені. Інші компанії, зокрема Google та Anthropic, розробляють подібних “агентів”, сподіваючись, що вони стануть наступним великим стрибком на шляху до того, щоб ШІ виконав свою обіцянку – зміг виконувати завдання, які зараз виконує людина.

За даними видання The Information, яке першим повідомило про майбутній запуск, Operator надаватиме користувачам запропоновані підказки в таких категоріях, як подорожі, ресторани та події. Наприклад, користувачі можуть попросити оператора знайти хороший рейс з Нью-Йорка до Мауї, який не приземлиться надто пізно ввечері. Оператор не завершить транзакцію – користувач залишиться в циклі і завершить процес оформлення замовлення.

Легко уявити, яким чином Operator може бути корисним. Люди похилого віку, які не мають навичок роботи з комп’ютером, можуть попросити Оператора допомогти їм надіслати електронний лист і побачити, як він перейде до Gmail і відкриє для них вікно для написання тексту. Технічно підковані люди не потребують такої допомоги, але людям старшого покоління часто важко орієнтуватися в Інтернеті, і для них виконання навіть простих завдань є проблемою. Боти можуть допомогти і в інших сферах, наприклад, у тестуванні якості, коли компаніям потрібно перевірити, чи працюють їхні нові веб-сайти або послуги належним чином.

Так звані “агенти використання комп’ютерів” несуть у собі потенційні ризики. Ми вже бачили, як один стартап представив веб-навігаційного бота для автоматизації процесу розміщення маркетингового спаму на Reddit. Боти, які беруть під контроль клієнта-кінцевого користувача, здатні обходити обмеження API, призначені для блокування автоматизації. Стартапам, які займаються розробкою штучного інтелекту, доведеться вжити певних заходів для боротьби зі зловживаннями, інакше веб-сайти стануть ще більш заваленими спамом, ніж вони є сьогодні.

Такі агенти, як Operator, по суті, працюють, роблячи скріншоти браузера користувача і надсилаючи зображення назад в OpenAI для аналізу. Як тільки його моделі визначають наступний крок, необхідний для виконання завдання, браузеру надсилається команда перемістити і клацнути мишею на відповідну ціль або ввести текст у поле введення. Він використовує переваги мультимодальної технології OpenAI та інших розробників, які можуть інтерпретувати різні форми введення, в даному випадку текст і зображення.