News

2024.02.21

知財ニュース

Apple、画像編集AIモデル「MGIE」を発表─テキストの指示で写真の編集が可能に

スクリーンショット 2024-02-19 3.30.30

Appleは米カリフォルニア大学サンタバーバラ校と共同で、テキストの指示で画像が編集できる画像編集AIモデル「MGIE」を開発した。

スクリーンショット 2024-02-19 3.31.28

「MGIE」はマルチモーダル大規模言語モデル(MLLM)によるオープンソースの画像編集AIモデルだ。画像の切り抜き、サイズ変更、フィルター追加、カラー調整などが可能。また、画像全体の編集だけでなく写真の一部修正などもできる。

マルチモーダル大規模言語モデル(MLLM)は、簡潔で表現力豊かな指示を導き出すことを学習し、視覚に関連した明示的なガイダンスを提供。人間の曖昧な命令に対処して合理的な編集を実現するとのことだ。

例えばピザの画像では、「もっとヘルシーに」とテキストで指示するとトマトなどの野菜がピザに追加されている。文脈が追加されないと「ヘルシー」の意味を捉えることは難しい。しかし「MGIE」は「野菜のトッピング」とピザを正確に結びつけることができ、ユーザーの期待通りに関連する編集を導くことができるのだという。

スクリーンショット 2024-02-19 3.30.30

コードはGitHubで公開されており、Hugging Faceにてデモを試すことも可能だ。

論文

GitHub

Hugging Face

Top Image : © Apple

広告