チャットAIは入力できる情報が増えると“脱獄”リスクも増える Anthropic研究 (ASCII.jp)

Posted byWpmaster
04/04/2024

メニーショット・ジェイルブレイキングのイメージ生成AI「Claude」を開発するAnthropicは4月3日、大規模言語モデル(LLM)から問題のある回答を引き出す攻撃手法「メニーショット・ジェイルブレイキング」について調査した結果を公表した。大量の偽の会話テキストでAIの安全装置を突破チャットAIでは不適切な回答(爆弾の作り方など)を求めるプロンプトを与えられた場合、AIが回答を拒否する安 …

Newskey

チャットAIは入力できる情報が増えると“脱獄”リスクも増える Anthropic研究 (ASCII.jp)

Archives