Microsoft、1枚の顔写真と音声からリアルに話す顔の映像を生成するAIモデル「VASA-1」を発表

Microsoft Researchは4月16日、1枚の写真と音声クリップから、リアルに話す顔の映像を生成するAIモデル「VASA-1」を発表した。

20240506 news02

「VASA-1」は、音声と絶妙に同期した唇の動きを生成できるだけでなく、顔のニュアンスや自然な頭の動きなど、本物らしさや生き生きとした印象を与える顔を生成することが可能だ。リアルな顔や頭のダイナミクスを持つ高い動画品質を提供するだけでなく、最大40FPS（1秒間に40枚）、512x512の動画サイズで作ることができる。

任意の長さの音声を扱うことができ、シームレスなトーキングフェイス動画を安定して出力することができる。

視線の方向や顔の距離、怒りや幸福などの表情の生成、性別や人種の違う人物、肖像画でも生成可能だ。

「VASA-1」は、あくまで研究デモンストレーションであり、バーチャルAIアバターの視覚的感情スキルの生成に焦点を当てているとのこと。誤解を招いたり、欺いたりするためのコンテンツを作成することは意図していないとしている。

現状では、この手法で生成された動画にはまだ識別可能なアーティファクトが含まれており、数値解析の結果、本物の動画の真正性を実現するにはまだギャップがあることが分かったのだという。

また、今回使用されている人物画像は、モナリザを除いて、StyleGAN2またはDALL-E-3によって生成された架空の人物とのこと。同社は、その技術が責任を持って適切な規制に従って使用されることが確認されるまで、オンラインデモ、API、製品、追加の実装の詳細、または関連する提供物をリリースする予定はないとしている。

ニュースリリースはこちら

この記事のタグ

広告