OpenAI、新たな生成AIモデル「GPT-4o」発表―音声・画像・テキストなどマルチに対応、人のように自然な音声対話が可能

米OpenAIは現地時間2024年5月13日、新たな大規模言語モデル「GPT-4o（フォーオー）」を発表した。現行の「GPT-4 turbo」の後継となるフラッグシップモデルで、AIの応答時間を大幅に高速化。テキスト・音声・映像・画像と、それらを組み合わせた処理・生成能力を高めており、人のアプローチに対してリアルタイムで自然な反応を返す。人の感情に配慮した応答も可能で、デモ画像では数学の問題を解く人をサポートする様子を公開している。

「GPT-4o」のテキストと画像に関する機能は、すでにChatGPTのサイトで提供を開始。有料ユーザー向けの「GPT-4」とは異なり、無料ユーザーも含めて展開するという。音声対話機能などは、今後数週間で順次リリースする予定だ。現時点で日本語を含む50の言語に対応している。

特に進化したのは音声対話の性能だ。従来モデルでも音声対話は可能だが、応答に待ち時間が発生することが課題だった。GPT-3.5の待ち時間は平均2.8秒、GPT-4では平均5.4秒生じていた。「GPT-4o」は、平均0.32秒と待ち時間を大幅に短縮。この速度は、人間の応答時間に匹敵するレベルという。

従来モデルでは、3つの独立したモデルを組み合わせて3段階で処理していたため時間を要していた。音声をテキストに書き起こし、書き起こしたテキストから回答をテキストで出力、回答のテキストを音声に変換するといった方法だ。またそうした処理の中で、感情の推察や感情表現のもととなる、話者のトーンや背景ノイズなどの情報も失われていたという。

「GPT-4o」は、音声対話のすべての処理を同じニューラルネットワークで行うため、高速処理が可能。テキスト・音声・視覚情報などを組み合わせたトレーニングで、異なる種類のコンテンツの高速・スムーズな処理を可能にしている。ちなみに「GPT-4o」のoは、ラテン語で「全て」を意味する「omni（オムニ）」に由来する。

ただOpenAIは発表記事の中で、同モデルの可能性や限界を探っている状況と言及。公式YouTubeでは、その可能性を示唆するデモ動画を複数公開している。

例えば、リアルタイムで言語の通訳ができる。AIとの対話途中での話題変えや、リクエスト追加も可能。前述した数学の問題への対応では、AIが折々で子どもを励ましながらアシストして回答に導いている。スマホで撮影した映像をAIが認識して、音声で伝えることもできる。動画では、AIのアドバイスをもとに、視覚障がい者がタクシーに乗車する様子が収められている。

「GPT-4o」の登場で、人の生活をサポートするAGI（汎用人工知能）の技術進化がより一層加速しそうだ。