News
2024.03.07
知財ニュース
Stability AI、新たな画像生成AIモデル「Stable Cascade」を発表─「Stable Diffusion」より高速高品質
Stability AIは2023年2月13日、テキストから画像を生成する新モデル「Stable Cascade」を、非商用ライセンスでリリースした。
Stable Cascadeは、Würstchen アーキテクチャをベースにした新しいテキスト画像変換モデルで、高品質の画像を高速で生成することが可能。異なるモデルからなる3段階のアプローチにより、一般消費者向けハードウェアでのトレーニングと微調整ができ、従来モデルの「Stable Diffusion」よりも高速かつ高品質を実現した。
3段階のモデルの各ステージは、異なるパラメータサイズを持ち、画像生成の精度と細部の再構成に優れている。
レイテントジェネレーターフェーズ(ステージC)は、ユーザー入力を24x24のコンパクトな潜在空間に変換する。Stable Diffusionよりもはるかに高い圧縮率で、レイテントデコーダーフェーズ(ステージAおよびB)に渡される。
テキスト条件生成(ステージC)を高解像度ピクセル空間(ステージA&B)へのデコードから切り離すことで、ControlNetsやLoRAを含む追加学習や微調整をステージCだけで完結させることができる。
ステージCとBは、2つの異なるモデルでリリースされる。ステージCには1Bと3.6Bのパラメータ、ステージBには700Mと1.5Bのパラメータを使用。ハードウェアの必要性を最小限に抑えたい場合は、1Bパラメーター・バージョンを使用することも可能。
同社によれば、Stable Cascadeがプロンプトのアライメントと美的品質の両方において、ほぼすべてのモデル比較で最も優れていたという。
さらにStable Cascadeは、標準的なテキストから画像への生成に加え、画像バリエーションや画像から画像への生成も行うことができる。
Stable Cascadeのリリースに伴い、トレーニング、ファインチューニング、ControlNet、LoRA のすべてのコードをStability AIのGitHubページで公開中(学習コードと推論コードを含む)。
同モデルは現在、商用利用はできないが、他の画像モデルを商用利用したい場合は、Stability AIメンバーシップページを確認のこと。
Top Image : © Stability AI