米Meta、テキストから動画を生成できるAI「Make-A-Video」を発表

米Metaは2022年9月29日（現地時間）、動画生成AI「Make-A-Video」を発表した。

FireShot Capture 165 - ダイセル様向け WSスペースリサーチ - Google スライド - docs.google.com

「Make-A-Video」は、入力されたテキストから動画（64×64ピクセル、16フレーム）を生成できるAIで、「DALL-E」や「Stable Diffision」、「Midjourney」など、世界的に注目を集めている画像生成AIの動画版といったもの。サンプルでは、テキストをもとに作られた動画のほか、画像をもとに作られた動画も公開されている。

開発にあたっては、「WebVid-10M」と「HD-VILA-100M」という2つのデータセットを使用し、Web上のストック動画を含む数十万時間分の映像をAIに学習させた。同社CEOであるマーク・ザッカーバーグ氏のFacebook投稿によれば、動画生成はピクセルの変化を予測する必要があるため画像生成より困難だが、教師なし学習のレイヤーの追加によりこれを解決したという。

なお、同社のツイッターでは「Make-A-Video」で作った試作動画を紹介。これらの動画はそれぞれ以下のテキストから生成された。

・A dog wearing a Superhero outfit with red cape flying through the sky（赤いマントとスーパーヒーローの衣装を着て空を飛ぶ犬）
・Hyper-realistic spaceship landing on mars（火星に着陸する超リアルなスペースシップ）
・A teddy bear painting a self-portrait（肖像画を描くテディベア）
・Unicorns running along a beach, highly detailed（詳細なタッチで描かれた浜辺を走るユニコーン）

Metaでは、「Make-A-Video」が「ジェネレーティブAI」の最新の研究成果であるとし、「クリエイターやアーティストに新たな機会をもたらす可能性」があるとコメント。今後、デモ版をリリースする予定としている。

「Make-A-Video」公式サイト
「Make-A-Video」論文はこちら
マーク・ザッカーバーグ氏のFacebook投稿

この記事のタグ

広告