News

2024.10.15

知財ニュース

Meta、テキストから高解像度動画や音声を生成できる動画生成AIモデル「Movie Gen」を公開

スクリーンショット 2024-10-14 6.53.48

Metaは、テキストを入力して動画や音声を作成できる動画生成AIモデル「Movie Gen」を公開した。

「Movie Gen」は、テキストから高解像度の動画や音声を作成できる動画生成AIモデルだ。動画は、1秒あたり16フレームの速度で最大16秒の動画を生成することが可能だ。個人の画像をユニークな動画に変換したりすることもできる。

Metaによると、このAIモデルは、タスク全体で業界の同様のモデルよりも優れているとしている。オブジェクトの動き、被写体とオブジェクトの相互作用、カメラの動きを推論でき、さまざまな概念の妥当な動きを学習できるため、この分野で最先端のモデルになっているのだという。

既存の動画を編集することも可能だ。ビデオとテキストプロンプトの両方を入力として受け取り、タスクを正確に実行して目的の出力を生成。ビデオ生成と高度な画像編集を組み合わせ、要素の追加、削除、置換などの局所的な編集と、背景やスタイルの変更などができる。

人物の画像を入力として取り、それをテキストプロンプトと組み合わせて、テキストプロンプトで通知された参照人物と豊富な視覚的詳細を含むビデオの生成する機能も備えている。同社によると「Movie Gen」は、人間のアイデンティティと動きを維持するパーソナライズされた動画の作成に関して最先端の結果を達成しているとのこと。

動画とテキストの入力を使用して、環境音、効果音 (Foley)、楽器のバックグラウンドミュージックなど、動画コンテンツに同期された最大45 秒の高品質で忠実度の高いオーディオを生成できる13Bパラメータのオーディオ生成モデルをトレーニングしている。

さらに、任意の長さの動画に対して一貫したオーディオを生成できるオーディオ拡張手法を導入し、オーディオ品質、動画とオーディオのアライメント、テキストとオーディオのアライメントにおいて全体的に最先端のパフォーマンスを実現している。

「Movie Gen」公式サイトはこちら

ニュースリリースはこちら

Top Image : © Meta

広告