AI技術が急速に進歩し、さまざまな分野で利用される中、標準化された能力とリスク評価方法が求められています。
そのため、Anthropicは新たな取り組みとして第三者モデル評価の開発を発表しました。
同社のブログ投稿では、Anthropicが優先的に注力する評価の種類が具体的に示されています。
評価の主な対象は以下の三つです。
まず、AIの安全水準(ASLs)の評価です。
これはサイバーセキュリティや化学・生物・放射線リスク、モデルの自律性、国家安全保障リスク、社会的な操作、ミスアラインメントリスクなどを含む広範な分野にわたります。
次に、モデルの高度な能力と安全性メトリックの測定です。
これは害悪や拒絶、高度な科学、多言語評価の改善、社会的影響などの測定が含まれます。
最後に、評価のインフラ、ツール、および方法の開発です。
テンプレートやコード不要ツール、評価の効率化を図るプラットフォームなどが対象となっています。
Anthropicは評価ツールの特性についても述べており、以下の要素が重要視されています。
評価はASL-3またはASL-4レベルを測定するために十分な難易度を持つべきです。
さらに、評価データがモデルの訓練セットに含まれないことが求められます。
これはモデルのメモリゼーション(訓練データの記憶)を避け、データが訓練セットにない場合でも評価がモデルの一般化能力を反映する助けとなるためです。
評価形式も多様であるべきとされ、タスクベースの評価やモデルグレード評価、さらには人間による試験も含むべきとしています。
最終的には、リアリスティックで安全性に関連するリスクモデルの構築が重要です。
安全評価で高得点を得たモデルが大きなインシデントを引き起こす可能性があることを示せる評価が理想です。
現在、Anthropicは新しい評価方法の提案を募集しており、選ばれた提案者と次のステップについて議論を行う予定です。
なんでAIの安全性を評価するのがそんなに重要なんだ?
それってどんなメリットがあるの?
AIの安全性評価は、AIが社会に悪影響を及ぼすリスクを減らせるから重要なんです。
例えば、誤った判断やセキュリティリスクを未然に防ぐことができます。
はい、まずはこのニュースの要点を簡単にまとめますね。
Anthropicが新しいAI評価方法の提案を募集し始めました。
主な目標は、AIの安全性やリスク評価に特化した新しい評価基準の開発です。
評価は第三者によって行われ、モデルの能力とリスクを厳密に検証します。
評価の主な対象は三つあります。
第一に、AIの広範な安全水準(ASLs)の評価です。
第二に、モデルの高度な能力と安全性メトリックの測定です。
第三に、評価のインフラ、ツール、および方法の開発です。
評価はASL-3 またはASL-4レベルの難易度を持つべきであり、評価データがモデルの訓練セットに含まれないことが重要です。
リアリスティックで安全性に優れたリスクモデルの構築が最終目標です。
では、質問に対する総括です。
ユータ君、AIの安全性を評価することは、大きなリスクを未然に防ぐために重要です。
例えば、誤った判断やセキュリティリスクを避けることができます。
この評価が標準化されると、様々な応用分野での安心感が増し、技術の信頼性が向上します。
アヤカさんが説明してくれたように、これによって社会的な悪影響を減少させることができるのです。