アップルの研究者らが、入力した文章によって画像を編集できるAIモデル「MGIE」を発表、公開しました。 MGIEとはMLLM-Guided Image Editingの略で、テキストベースのコマンドを解釈するマルチモーダル大規模言語モデル(MLLM)を使用しています。 MLLMは単純であいまいな文章を、フォトエディターで処理する詳細で明確な指示に変換できます。 例えば、ユーザーがペパロニ・ピザの写 …
アップルの研究者らが、入力した文章によって画像を編集できるAIモデル「MGIE」を発表、公開しました。 MGIEとはMLLM-Guided Image Editingの略で、テキストベースのコマンドを解釈するマルチモーダル大規模言語モデル(MLLM)を使用しています。 MLLMは単純であいまいな文章を、フォトエディターで処理する詳細で明確な指示に変換できます。 例えば、ユーザーがペパロニ・ピザの写 …