News

2024.03.13

知財ニュース

中国企業Alibaba、写真や画像をアニメーション化して動画を生成するAIシステム「EMO」を発表

0310 05

中国企業のAlibabaのインテリジェント・コンピューティング研究所チームが、写真や画像から動く映像を生成できるAIシステム「Emote Portrait Alive(EMO)」を発表した。このシステムを使用して、写真や画像をアニメーション化してリアルに話したり歌を歌ったりする動画を生成することが可能とのことだ。

単一の人物画像と、話したり歌ったりしているボーカル音声を入力すると、豊かな表情やさまざまな頭のポーズを備えたボーカルアバター動画の生成ができる。入力動画の長さに応じて、任意の持続時間の動画を生成することも可能だ。

研究者らは、モデルをトレーニングするために、映画やテレビ番組、歌など合計250時間以上の映像と1億5,000万以上の画像を収集したとのことだ。

0310 05

音声の音色の変化を直観的に認識し、ダイナミックで表現豊かなアバターの生成を可能にする。ペースの速いリズムについていくことも可能で、スピードが早い歌詞であっても表現力豊かでダイナミックなキャラクターアニメーションと同期することができる。

歌からの音声入力の処理に限定されず、さまざまな言語の音声にも対応できる。さらに、過去の時代の肖像画、絵画、3DモデルとAI生成コンテンツの両方をアニメーション化して、それらに本物のような動きとリアリズムを吹き込む機能が備わっている。

これにより、映画の登場人物のポートレートがモノローグやパフォーマンスをさまざまな言語やスタイルで表現することが可能になる。同社は多言語および多文化の状況におけるキャラクター描写の可能性を広げることができるとしている。

「Emote Portrait Alive(EMO)」公開記事

研究論文

Top Image : © Alibaba

広告