生成AI(人工知能)のエンジンとなる大規模言語モデル(LLM)が続々と生まれている。各社は開発したLLMの性能の高さをアピールするが、日本語では英語に比べ、性能を客観的に評価するテストデータが整っていない。早稲田大の河原大輔教授(情報学)は「性能を上げるためにも、評価の仕組み作りが欠かせない」と指摘する。 ――AIの性能評価はどんなやり方がありますか。 「テキストに関するAIの性能評価で主流だっ. …
生成AI(人工知能)のエンジンとなる大規模言語モデル(LLM)が続々と生まれている。各社は開発したLLMの性能の高さをアピールするが、日本語では英語に比べ、性能を客観的に評価するテストデータが整っていない。早稲田大の河原大輔教授(情報学)は「性能を上げるためにも、評価の仕組み作りが欠かせない」と指摘する。 ――AIの性能評価はどんなやり方がありますか。 「テキストに関するAIの性能評価で主流だっ. …