News
2025.01.30
知財ニュース
OpenAI、人の代わりにブラウザ操作しタスクをこなすAIエージェント「Operator」公開

OpenAIは米国時間1月23日、自らWebブラウザを操作してタスクを実行するAIエージェント「Operator(オペレーター)」を公開した。APIやプログラミングベースで動く従来技術とは異なり、AIが直接Webブラウザを操作できる。Webサイトへのアクセスや閲覧、タイピング、クリック、スクロールといった操作を人の代わりに行う。同社が手がける最初のAIエージェントの1つだ。
現状ではリサーチプレビューの段階で、実行制限があるとしており、まずは米国のChatGPT Proユーザーのみに展開する。フィードバックをもとに進化させ、将来的にはPlus、Team、Enterprise ユーザーへの拡大を目指す。その先にChatGPTへの機能統合を予定している。
「Operator」の基盤には「Computer-Using Agent(CUA)」という新しいAIモデルを用いている。GPT-4oの視覚認識機能と、強化学習による高度な推論と組み合わせて構築。人が画面上で見るボタン・メニュー・テキストフィールドなどのグラフィカルユーザーインターフェース(GUI)を直接操作できる。
スクリーンショットを介してブラウザを見ることができ、マウスやキーボードを用いてブラウザにアクセス可能。問題やミスが発生した際は、推論能力を活用して自力で修正する。不正利用を防ぎ、ユーザーが動作を制御できるよう安全対策も施している。
使い方はChatGPTと大きく変わらず、チャット形式で実行したいタスクを説明するだけ。例えば、フォームの入力や食料品の注文、ミームの作成などの代行を依頼できる。また、ログインや支払いなどの対応時には、「Operator」がユーザーに操作を引き継ぐ仕組みも備えている。
Webサイトごとにカスタム指示を設定する機能もある。よく使う航空会社を設定しておけば、予約サイトのフローを自分好みにカスタマイズ可能。またプロンプトを保存でき、食料品の補充注文など、繰り返しのタスクに活用できる。ブラウザで複数タブを使うのと同じイメージで、複数のタスクを同時に処理できるという。
掲載動画では、レシピサイト「Allrecipes」からアサリのリングイネのレシピ検索と、食料品配達サービス「Instacart」のカートに必要な材料を追加するよう依頼。すでに持っている材料を省いて、足りないものだけをカートに入れるようにリクエストし、「Operator」がタスクをこなす様子を公開している。
OpenAIは現在、Instacart、OpenTable、Uberなど複数の企業と連携し、「Operator」の実用化に向けた取り組みを推進中。また、公共部門のワークフローの効率を向上させる可能性が高いとして、米Stockton市とも連携し、ユースケースの検討も進めている。
Top Image : © OpenAI