News

2024.10.03

知財ニュース

Meta、人の画像から姿勢や立体形状を高度理解する「Sapiens」を発表―既存モデルを凌駕

スクリーンショット 2024-09-10 16.36.25

Meta Reality Labsは、写真やビデオに映る人物の画像から、姿勢や立体形状を高精度に理解する「Sapiens」を発表した。

「Sapiens」は同社の新しいビジョンモデル。0.3Bから2Bまでのバリエーションがあり、写真やビデオに映る人の画像から高精度に人間の姿勢や立体形状を理解できるというもの。

2D 画像内の人体のポーズを認識する「2Dポーズ推定」、手、足、頭などのさまざまな部分を識別して区別する「身体パーツのセグメンテーション」、画像内のオブジェクトの深度を予測する「深度推定」、画像内の物体の表面の向きを推測する「表面法線予測」という基本的な4つのタスクに対応し、まるで実際の人間の動画の様に、画像から複雑な情報を理解することができる。

スクリーンショット 2024-09-10 16.36.14

Sapiensモデルは、3億枚を超える画像データセット「Humans-300M」で学習したことで、従来モデルを凌駕する精度を実現。

さらにSapiens-2Bモデルは、ポーズ推定、パーツセグメンテーション、深度推定、法線推定の全てのタスクにおいて、既存の最先端モデルを大幅に上回る性能を達成。特に人の姿勢を推定するポーズ推定や、身体の部位を識別するパーツセグメンテーションにおいて目覚ましい成果を上げた。深度推定と法線推定においても、単一人物画像と複数人物画像の両方で既存を大きく上回る結果を出している。

同システムは、1024×1024ピクセルという高解像度画像にも対応し、これまで以上に細かな動きや特徴を捉えることが可能。

シンプルな設計でありながら、パラメータ数3億から20億まで調整できる。様々な規模のタスクに対応できる柔軟性を持ち合わせている「Sapiens」に、大きな注目が集まっている。

プレスリリースはこちら

Top Image : © Meta Reality Labs

広告