News

2024.03.07

知財ニュース

Stability AI、新たな画像生成AIモデル「Stable Cascade」を発表─「Stable Diffusion」より高速高品質

スクリーンショット 2024-03-04 21.09.11

Stability AIは2023年2月13日、テキストから画像を生成する新モデル「Stable Cascade」を、非商用ライセンスでリリースした。

collage 1

Stable Cascadeは、Würstchen アーキテクチャをベースにした新しいテキスト画像変換モデルで、高品質の画像を高速で生成することが可能。異なるモデルからなる3段階のアプローチにより、一般消費者向けハードウェアでのトレーニングと微調整ができ、従来モデルの「Stable Diffusion」よりも高速かつ高品質を実現した。

3段階のモデルの各ステージは、異なるパラメータサイズを持ち、画像生成の精度と細部の再構成に優れている。

スクリーンショット 2024-03-04 21.17.50


レイテントジェネレーターフェーズ(ステージC)は、ユーザー入力を24x24のコンパクトな潜在空間に変換する。Stable Diffusionよりもはるかに高い圧縮率で、レイテントデコーダーフェーズ(ステージAおよびB)に渡される。

テキスト条件生成(ステージC)を高解像度ピクセル空間(ステージA&B)へのデコードから切り離すことで、ControlNetsやLoRAを含む追加学習や微調整をステージCだけで完結させることができる。

ステージCとBは、2つの異なるモデルでリリースされる。ステージCには1Bと3.6Bのパラメータ、ステージBには700Mと1.5Bのパラメータを使用。ハードウェアの必要性を最小限に抑えたい場合は、1Bパラメーター・バージョンを使用することも可能。

同社によれば、Stable Cascadeがプロンプトのアライメントと美的品質の両方において、ほぼすべてのモデル比較で最も優れていたという。

スクリーンショット 2024-03-04 21.19.43

さらにStable Cascadeは、標準的なテキストから画像への生成に加え、画像バリエーションや画像から画像への生成も行うことができる。

Stable Cascadeのリリースに伴い、トレーニング、ファインチューニング、ControlNet、LoRA のすべてのコードをStability AIのGitHubページで公開中(学習コードと推論コードを含む)。

同モデルは現在、商用利用はできないが、他の画像モデルを商用利用したい場合は、Stability AIメンバーシップページを確認のこと。

プレスリリースはこちら

Top Image : © Stability AI

広告