もっと詳しく

対話を大量に仕込んでセーフガードを回避する「Many-shot jailbreaking」 Anthropicは3日(米国時間)、大規模言語モデル(LLM)の出力結果を制御するために設けられたガードレールを回避する手法「Many-shot jailbreaking」について、研究結果を公開した。今回の研究結果公表に先立って、AI開発に関わる研究機関や競合企業などと情報を共有し、自社AIモデルにおい …