もっと詳しく

東京工業大学の畠山歓助教と早川晃鏡教授らは、化学の専門知識を学んだ大規模言語モデル(LLM)を開発した。6万5000報の論文データセットを構築した。学習データでは、論文の要約よりもイントロダクションが性能向上に役立った。論文の結論の学習は、性能面でネガティブに働いた。小さなLLMにとっては結論の内容が専門的過ぎた可能性がある。専門知識を備えたLLMを構築するための知見になる。 米メタが公開している …