News

2023.09.27

知財ニュース

OpenAI、ChatGPTに画像認識・音声で対話できる新機能を搭載─画像を介した対話や自然な音声会話が可能

OG_top

OpenAIは米国時間9月25日、「ChatGPT」に搭載する新たな画像認識・音声機能を発表した。画像をもとにした対話や、音声による会話ができる新しいインターフェースを提供する。画像認識機能は、PCやスマートフォンなど全てのプラットフォームからアクセス可能で、音声機能はiOS/Androidで利用できる。今後2週間をかけて、有料会員であるPlusとEnterpriseのユーザーに順次展開する。

画像認識では、写真やスクリーンショット、テキスト・画像の両方を含むドキュメントなどを認識し、画像にもとづく対話が可能になる。複数画像を用いたやり取りにも対応する。また描画機能を使って画像を丸で囲うと、その箇所に焦点をあてた認識も可能。マルチモーダルに対応したGPT-3.5GPT-4を用いて、画像認識を実現している。

使用例としては、グリルが起動しない原因を調べる、冷蔵庫の画像から献立計画を立てる、仕事関連のデータを複雑なグラフで分析するなどを提示している。

デモ動画では、自転車サドルの下げ方を相談するやり取りを公開。ユーザーがChatGPTから受けたレバー・ボルト操作のレクチャーを踏まえ、特定箇所の画像を送って「これはレバーですか」と追加確認。さらに説明書と道具箱の画像から、操作に適した道具を持っているかを質問するという、複数回の画像認識を交えた対話の様子が窺える。

OG_sub1

音声機能としては、新しいtext-to-speechモデルを実装して、ChatGPTとの音声対話を提供する。テキストと数秒のサンプル音声で、人間のようなリアルな合成音声を生成。ユーザーの声は、OpenAIの音声認識・文字起こしシステム「Whisper」を用いてテキスト化し、相互の自然な会話を実現している。

音声機能の利用には、スマートフォンアプリでの設定が必要となる。「Settings」から「New Features」に進み、音声会話機能を有効にすれば利用可能。合成音声は5種類あり、好みの音声を選択できる。

同社はまた発表の中で、高精度な音声合成技術の悪用リスクに触れ、音声対話など特定目的で提供すると明記。サンプル音声の合成には、プロの声優の声を活用したという。また、他社への技術協力時も同じ方法で行っていると述べ、米Spotifyの音声翻訳機能の試験運用の例を挙げている。

OpenAIは今後、これら新機能のアクセス範囲を拡大していく方針。Plus・Enterpriseユーザーへ提供した後、開発者を含むその他の利用者への展開を想定している。

ニュースリリースはこちら

Top Image : © OpenAI

広告