未来をつくる手段が見つかる。

知財を探す
- すべての知財から探す
- タグから探す
- 産業分野から探す
- 企業から探す
- 妄想プロジェクトから探す
- 実現した事例から探す
- 未来イシューから探す
ピックアップ
ニュース
求人情報
- すべての求人情報
- 求人掲載の申し込み
知財図鑑について
サポート

メールマガジン登録
媒体資料
© 2020 Chizaizukan Inc.

戻る

注目のタグ
すべてのタグを見る

新素材
362
万博／大阪・関西万博
112
テラフォーミング
37
AGI（汎用人工知能）
78
マイクロロボット
13
生成AI
552
デジタルクローン
31
ロボティクス
354
BMI（ブレインマシンインターフェイス）
52
空飛ぶ車
42
スマートグラス
91
パーソナライズフード
38
遠隔診療
50
自動運転
104
高精度測位
27
3Dプリント
144
VR
273
アート
568
アバター
152
NFT
163
分野
すべての分野を見る

生活・文化
630
アート・エンターテインメント
543
医療・福祉
453
教育・人材
385
製造業・メーカー
344
メディア・コミュニケーション
311
旅行・観光
228
流通・モビリティ
222
住宅・不動産・建築
216
環境・エネルギー
207
IT・通信
190
食品・飲料
186
官公庁・自治体
174
スポーツ
168
農業・林業・水産業
133
航空・宇宙
107
ロボティクス
103
AI
100
資源・マテリアル
96
金融・保険
44

News

2024.03.07

知財ニュース

Stability AI、新たな画像生成AIモデル「Stable Cascade」を発表─「Stable Diffusion」より高速高品質

Stability AIは2023年2月13日、テキストから画像を生成する新モデル「Stable Cascade」を、非商用ライセンスでリリースした。

collage 1

Stable Cascadeは、Würstchen アーキテクチャをベースにした新しいテキスト画像変換モデルで、高品質の画像を高速で生成することが可能。異なるモデルからなる3段階のアプローチにより、一般消費者向けハードウェアでのトレーニングと微調整ができ、従来モデルの「Stable Diffusion」よりも高速かつ高品質を実現した。

3段階のモデルの各ステージは、異なるパラメータサイズを持ち、画像生成の精度と細部の再構成に優れている。

スクリーンショット 2024-03-04 21.17.50

レイテントジェネレーターフェーズ（ステージC）は、ユーザー入力を24x24のコンパクトな潜在空間に変換する。Stable Diffusionよりもはるかに高い圧縮率で、レイテントデコーダーフェーズ（ステージAおよびB）に渡される。

テキスト条件生成（ステージC）を高解像度ピクセル空間（ステージA＆B）へのデコードから切り離すことで、ControlNetsやLoRAを含む追加学習や微調整をステージCだけで完結させることができる。

ステージCとBは、2つの異なるモデルでリリースされる。ステージCには1Bと3.6Bのパラメータ、ステージBには700Mと1.5Bのパラメータを使用。ハードウェアの必要性を最小限に抑えたい場合は、1Bパラメーター・バージョンを使用することも可能。

同社によれば、Stable Cascadeがプロンプトのアライメントと美的品質の両方において、ほぼすべてのモデル比較で最も優れていたという。

スクリーンショット 2024-03-04 21.19.43

さらにStable Cascadeは、標準的なテキストから画像への生成に加え、画像バリエーションや画像から画像への生成も行うことができる。

Stable Cascadeのリリースに伴い、トレーニング、ファインチューニング、ControlNet、LoRA のすべてのコードをStability AIのGitHubページで公開中（学習コードと推論コードを含む）。

同モデルは現在、商用利用はできないが、他の画像モデルを商用利用したい場合は、Stability AIメンバーシップページを確認のこと。

プレスリリースはこちら

Top Image : © Stability AI

この記事のタグ

広告

一覧へ戻る