News

2023.12.18

知財ニュース

Google、最新のマルチモーダルAI「Gemini」発表─GPT-4の性能を上回るUltra、2024年展開予定

Gemi_main

米Googleは米国時間2023年12月6日、高性能な最新AIモデル「Gemini」を発表した。マルチモーダルなモデルで、テキスト、画像、音声、動画、コードなどの様々な情報をシームレスに理解・操作できる。同社は、2023年5月に開催したイベント「Google I/O」で、開発中だったGeminiの展開を予告していた。

初代の「Gemini 1.0」では、サイズ・機能性に応じて「Gemini Ultra」「Gemini Pro」「Gemini Nano」の3種類を提供する。最も高性能なGemini Ultra は、ニュアンスなども含めた情報を理解・把握し、複雑なタスクに対応できる。Proは汎用モデルで、幅広いタスクに対応。Nanoはスマートフォンなどのデバイス向けに、コンパクトモデルとして展開する。

Gemi_sub1

その性能は既存AIの水準を超えている。Googleによると、画像の理解や数学的推論、音声・動画の理解などからなる32の業界ベンチマークのうち、30の指標でUltraがOpenAIのGPT-4の性能を上回ったという。Proは、GPT-3.5と同等かそれ以上という結果を得ている。

またUltraは、数学、物理学、歴史、法律、医学、倫理などの57 科目を組み合わせて知識と問題解決能力を問うMMLU (大規模マルチタスク言語理解) で、人間の専門家レベルに匹敵するスコアをマーク。推論が必要なマルチモーダルタスクで構成される、新しいMMMUのベンチマークでも、過去最高水準のスコアを達成している。

Googleは、発表当日よりGemini の展開を開始。対話型AI「Bard」の英語版では、アップデートを配信し、Gemini Proベースに移行した。テキスト・画像理解や要約、推論、企画立案、文章編集などの機能向上を図っている。Nanoは、同社のスマートフォン「Google Pixel 8 Pro」に搭載し、「レコーダー」アプリの要約機能などを強化する。Ultraのみ、信頼性や安全性の検証などを行うため、「2024年の早い時期」のリリースを予定している。

また米国時間2023年12月13日より、開発者と企業向けにプレビュー版のGemini Proの提供を開始。開発者向け無料プログラミングツール「Google AI Studio」と、Google Cloudのエンタープライズ向けフルマネージド AI プラットフォーム「Vertex AI」のユーザーであれば、API経由で利用できる。アプリ構築に活用可能なSDKも含めて提供している。

Gemini_sub2

Googleは12月6日の発表日に、Geminiのイメージを伝える動画も公開。動画では、動画から展開を推測したり思考を深めたりと、人間同士が会話しているようなスムーズなコミュニケーションを取る様子を流している。

動画を掲載した開発者向けブログでは、動画のようなやり取りは、今後提供を目指す機能と記載している。現状のGeminiは、テキストと静止画像から状況を理解・推測し説明できる状況という。ただ近い将来には、人間同等のコミュニケーションが取れるAIが誕生しそうだ。

ニュースリリースはこちら(1)(2)(3)(4)
「Gemini」構築に関する開発者向けブログ
「Gemini」公式サイト

Top Image : © Google

広告