В січні OpenAI анонсувала нового ШІ-агента Operator, який може виконувати завдання користувачів у браузері. Наразі він доступний лише для користувачів ChatGPT Pro у США.
Цікаво, що ідею даного продукту Альтману ще в жовтні 2024 року озвучив українець, засновник Awesomic, Роман Севастьянов. Саме він разом з програмістом Олександром Дашком створив прототип GPT-a (де «а» від слова асистент), аналогом якого фактично є Operator.
Технічна реалізація Operator відрізняється від GPT-a, який запропонував Роман, але за призначенням та функціями ці продукти схожі.
Про те, як це було, Роман розповів у коментарі Scroll.
Зустріч у Y Combinator
Наш інвестор Гарі Тен з Y Combinator запросив фаундерів випускників програми YC на зустріч із командою OpenAI та Семом. Щоб ми разом брейнштормили над різними ідеями.
Я вирішив запропонувати таку ідею: під’єднати клавіатуру та мишку до ChatGPT, робити скриншоти перед кожною дією і, таким чином, дати ChatGPT можливість виконувати широкий спектр завдань, наприклад, надсилати мейли чи виконувати інші задачі.
Ми в Awesomic розробили прототип, я також займався дизайном і програмуванням, і ми представили цей прототип за 2 дні Сему і команді OpenAI.
Цікаво, що за три місяці це виявився єдиний проєкт із представлених на тій зустрічі, який OpenAI впровадили у свою роботу. Це було дуже приємно!
Мені сподобалося спілкування з командою, особливо з Семом – дуже приємна людина.
Днями OpenAI запустили «оператора», який, фактично, є розвитком ідеї, яку ми демонстрували на закритій зустрічі як GPT-a. Єдина відмінність – ОАІ вирішили запускати віртуальну машину для більшої безпечності.
Десь за місяць після нашої зустрічі з ОАІ компанія Anthropic теж запустила схожий продукт. Цікаво спостерігати, як різні люди одночасно приходять до одних і тих самих висновків.
Різниця у підходах
Коли ми працювали над проєктом, я помітив кілька проблем.
- По-перше, аналіз скриншотів споживає багато токенів, тому зрозуміло, чому ця функція доступна тільки на тарифі за $200. При цьому активне використання цього може навіть не окупати витрат на токени.
- По-друге, хоч базова версія вже працює, для масштабного використання потрібні додаткові інвестиції в оптимізацію алгоритмів.
Я впевнений, що з часом ці функції стануть значно кращими – як це було з GPT 2.0.
Також я розумію, чому OpenAI вирішили запускати це у форматі віртуальних машин, а не працювати безпосередньо з пристроями користувачів. Це робить систему більш безпечною – мінімізує доступ до персональних даних і ризик потенційних хакерських атак.
Я вважаю цей проєкт одним із найважливіших напрямків, які зараз розвиває OpenAI. Він відкриває новий рівень можливостей для роботи з комп’ютерами.
OAI дали нам невеличкий грант у вигляді кредитів ОАІ, чисто щоб покрити базові витрати на токени, і також дали максимальний доступ до її моделей.
Замість висновків
Хоча ми не знаємо всіх деталей того, як на світ народився Operator, з даного кейсу стає зрозуміло одне. Зустрічі фаундерів-початківців (або вже доволі успішних, як Роман) з такими фігурами, як Сем Альтман, насправді корисні обом сторонам. З Альтмана – досвід, з фаундерів – ідеї.
Поглянемо, наскільки успішним виявиться Operator. Можливо, на тій зустрічі OpenAI дійсно дістав ідею на мільярд.