OpenAIは現地時間12日、言語モデル評価のためのベンチマークツール「simple-evals」をGitHub公式リポジトリに公開した。従来公開していたLLM評価ベンチマークツール「evals」の軽量版に位置する「simple-evals」は、最新モデル(gpt-4-turbo-2024-04-09以降)で公開している数値の透明性を保つためにオープンソースで公開しており、以下の各スコアを評価する …
OpenAIは現地時間12日、言語モデル評価のためのベンチマークツール「simple-evals」をGitHub公式リポジトリに公開した。従来公開していたLLM評価ベンチマークツール「evals」の軽量版に位置する「simple-evals」は、最新モデル(gpt-4-turbo-2024-04-09以降)で公開している数値の透明性を保つためにオープンソースで公開しており、以下の各スコアを評価する …