英Stability AI、日本風に特化した画像生成AIモデルをリリース─商用利用可

画像生成AI（人工知能）企業のStability AIは、日本に特化した text-to-image モデル「Japanese Stable Diffusion XL（JSDXL）」をリリースした。最新の英語版text-to-imageモデル「SDXL」に対して、日本語入力の対応に加え、日本スタイルや日本を題材とした画像を生成することができ、日本の文化やものが理解・反映された画像生成に特化させた日本向けの画像生成モデルで、商用利用も可能だ。

昨今、「SDXL」を含む強力なtext-to-imageモデルが公開されており、翻訳ツールと組み合わせることで日本語入力は可能だが、日本特有の表現の認識が難しい点や開発コストがかかる点、モデルが認識できるテキスト最大文字数の制限などの課題があった。また、英語プロンプトをそのまま「呪文」として扱い画像生成することも可能だが、大規模に学習されたモデルは西洋系の画像生成が得意であり、日本スタイルの画像生成がまだまだ物足りないのが現実だった。

今回リリースされた「JSDXL」は、「Stable Diffusion」の中で最高性能である「SDXL」の汎用性と高解像度の画像生成能力をできる限り維持したまま、以下の点を可能にした日本特化モデルだ。

日本語をモデルが直接扱うことができ、日本語特有の表現を認識。日本の広範囲な文化やアート、伝統的なものから現代的なものまで含め、それらを反映した高解像度で質の高い画像を作成することが可能。また、「SDXL」にはテキストエンコーダーが2つあるが、「JSDXL」には1つのみであるため、「SDXL」と比べ、より効率的な推論が可能となる。

20231127 04 news01 「男子高校生のプロフィール写真（左: DALLE-3, 中央: 翻訳+SDXL, 右: JSDXL）」

20231127 04 news02 「海岸沿いを走るライダー”（左: DALLE-3, 中央: 翻訳+SDXL, 右: JSDXL）」

本モデルの使用例としては、日本市場向けのプロダクトデザイン、建築・インテリアデザイン、プロモーション資料・広告の制作、ゲーム・メタバース・映画制作においてのアイデア出しなどが考えられる。また、「JSDXL」をさらに任意のドメインの画像にチューニングすることで、よりユーザーのニーズに即した画像生成が可能になる。