News

2024.02.22

知財ニュース

OpenAI、テキストから最長1分の高精度動画を生成するAI「Sora」発表―“AGI”を実現するマイルストーンと位置づけ

Sora_top

OpenAIは現地時間2024年2月15日、テキストから最長1分の動画を生成するAI「Sora(ソラ)」を発表し、生成した複数の動画を公開した。テキストプロンプトから、複数のキャラクターや複雑な被写体、背景や特定の動きを生成した動画で、クオリティの高さから公開以降各所で取り上げられている。「Sora」は、プロンプトによる指示が「物理的な世界にどのように存在するかも理解」して、動画を生成しているという。

AIモデルは当面一般公開せず、デザイナーや映画制作者などの専門家からフィードバックを受けて改良を進める。また、製品展開前には安全対策を講じると明示。サービス提供時期は明らかにしていない。

研究段階で「Sora」を公開した理由を、社外の人からフィードパックを得るとともに、生成AIの能力がどのような段階に来ているかを一般の人たちに感じてもらうためと言及。同社は、「AGI(汎用人工知能)を実現するための重要なマイルストーンになる」と位置付けている。

アーキテクチャーには、大規模言語モデル(LLM)「ChatGPT」のベースでもある自然言語処理の深層学習モデル「Transformer」を採用。同社がこれまで手がけてきた、GPTモデルと画像生成AIの「DALL-E」の研究をもとに開発した。

同社は、LLMの成功は言語処理にテキストトークンを使っていることとして、「Sora」には時空間パッチを導入している。動画をデジタル上の低次元な潜在空間に圧縮し、時間と空間の両方で分解して、動画を小さなデータ単位のパッチに変換。パッチで、多様な映像や画像の解像度、時間、向き、アスペクト比(縦横の長さの比率)などを学習して、動画を生成している。

Prompt: A litter of golden retriever puppies playing in the snow.
Their heads pop out of the snow, covered in.

「Sora」は訓練の結果、物理的な世界の人、動物、場所などをシミュレーションする能力も得たという。人や動物などの被写体がフレームから外れて戻ってきた際に外観が変わってしまう、動画生成にまつわる問題にも対応できる。1つの動画で被写体の複数のショットを生成できるため、フレームが移動・回転しても、どのアングルでも外観を維持する。

テキストプロンプトだけでなく、静止画像や画像とテキストの組み合わせによる動画生成も可能。また、既存の動画の拡張や時間の前後延長、欠けている箇所の補足もできる。

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red
wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film,
vivid colors.

一方でOpenAIは、現時点での技術的限界にも触れている。例えば、ガラスが割れるような物理的な現象の反映は、まだ正確ではない。因果関係の理解も十分ではなく、クッキーを齧った後に齧り跡がないといった状況が生じる。また、長時間の動画による不整合やオブジェクトの突発的な出現なども示唆している。その辺りは、今後の技術進展が期待される。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and
animated city signage. She wears a black leather jacket, a long red dress, and black boots,
and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and
casually. The street is damp and reflective, creating a mirror effect of the colorful lights.
Many pedestrians walk about.

動画生成AI自体は、2022年後半ころから登場し、MetaやGoogle、スタートアップ企業のRunwayなどがすでに展開している。それに伴い、近年、フェイクニュースや著名人のフェイク動画などの問題が顕在化してきている。

そうした流れを受け、OpenAIは「Sora」の製品化に向けた複数の安全対策を講じる予定。例えば、過激な暴力や性的な内容、憎悪的なイメージ、著名人の肖像、他人のIPを要求するような利用ポリシーに反するテキストが入力された場合、生成要求をブロックする。また「DALL-E 3」用に開発した画像検出器を活用し、動画が「Sora」で生成されたかを判別するツールの構築も進める。さらに、C2PAタグ(出所や変更履歴などを示すメタデータ)を「Sora」の生成動画に埋め込む予定だ。

同社はまた、リリース前に専門家を含めてテストを重ね、時間をかけて安全なAIシステムを構築していく方針。そのために、実際の使用例を学ぶことを重要視しており、早期の公開に踏み切っている。

「Sora」プロダクトサイトテクニカルレポート

Top Image : © OpenAI

広告