もっと詳しく

米Appleの研究者らは3月14日(現地時間)、独自開発のマルチモーダルLLM(MLLM)「MM1」の論文を発表した。画像へのキャプション追加や画像とテキストを使った質問への回答、自然言語推論を行えるよう設計したとしている。 ユーザーが質問と答えのルールを示すと、質問に正しく答える(画像:論文より) MM1は、画像とテキストのペア、画像とテキストの混合データ、テキストのみのデータの混合でトレーニン …