Google、動画生成AI「Veo」とテキスト画像変換AI「Imagen3」を発表

Googleは2024年5月14日に開催されたGoogle I/O 2024で、高解像度の動画を生成するAI動画生成モデル「Veo」を発表した。またこの発表と同時にテキストから画像へ変換する画像生成モデル「Imagen3」も発表している。

スクリーンショット 2024-05-22 17.55.11

「Veo」は、1分を超える長さの動画や高品質な解像度1080pの動画を生成することができるAIモデル。自然言語と視覚的セマンティクスを高度に理解することで、ユーザーのクリエイティブなビジョンを忠実に表現するビデオを生成する。

プロンプトを入力すると、プロンプトのニュアンスとトーンを正確に捉え、映像が生成される。「タイムラプス」や「風景の空中ショット」などの用語も理解するとのこと。一貫性と整合性のある映像を作成するため、ショット全体を通じて人物、動物、物体がリアルに動くのだという。

映画製作者のドナルド・グローバーと彼のクリエイティブスタジオ「Gilga」が、映画プロジェクトで「Veo」を実験した動画も公開されている。Googleは、将来的に「Veo」の機能の一部をYouTubeショートやその他の製品にも導入する予定としている。

また、「Veo」と同時に発表された「Imagen3」は、テキストから画像に変換する画像生成モデルで、本物のような画像が生成できる。

「Imagen3」は、自然言語、プロンプトの背後にある意図をよりよく理解し、長いプロンプトの細かい詳細を組み込むことができる。自然な日常言語で書かれたプロンプトも理解するため、複雑なプロンプトエンジニアリングを行わなくても、必要な出力を簡単に取得できる。人の手の細かいしわなどの細かいディテールや、編んだ象のぬいぐるみのような複雑なテクスチャを正確にレンダリング可能とのことだ。

20240522 news05