もっと詳しく

AIモデルは人を欺くようにトレーニングできるという論文が公開された。有害な行動を検出する安全性チェックを欺く「Sleeper Agents」のAIモデルが構築できるというのだ。 現状における安全性を担保する手法は、一部のAIリスクに誤った安心感を生む この記事は Members+会員の方のみ御覧いただけます ログイン/無料会員登録 会員サービスの詳細はこちら