もっと詳しく

  • AIのブラックボックス問題への進展
  • Anthropicによる大規模言語モデルの内部分析
  • 特徴の操作による応答変化とその潜在的リスク

信頼できるAIの開発をめざし、AnthropicがAIのブラックボックスを解明するための重要なステップを踏み出した。
人々がAIの答えを理解出来ない問題に対し、同社の研究は、ソナットモデルを用いて、AIモデル内部の挙動を詳細に調査した。

利用されたClaude 3.0は、言語モデルの一つで、AI内部の「特徴」のパターンを「辞書学習」という技術を使用して抽出することに成功した。
これにより、クロードはサンフランシスコやリチウムなどの特定の実体に対応する「特徴」を発現させるだけでなく、バグや性別バイアスといったより抽象的な概念への反応も示した。

さらに、これらの特徴間の「距離」測定を可能にし、例えば『ゴールデンゲートブリッジ』の特徴近くに、アルカトラズ島やカロフォルニアの知事らに関連する特徴が存在することを明らかにした。

また、特徴を人工的に増幅または抑制することによって、AIの応答回答を変えることが出来ることが判明。
ゴールデンゲートブリッジに関する特徴を増幅した際には、関連性のない質問に対しても橋について触れる回答を行うようになった。
ただし、バックドアや生物兵器開発といった悪用可能性を持つ特徴や、バイアス、問題行動、おべっか使用など潜在的リスクを孕んだ特徴も見つかっている。

AIの道具が実際にどう動作するかを理解し、それらをコントロールするために、Anthropicの研究は必要不可欠である。
これにより、AIが我々に役立つようにすること、また我々がAIに支配されないようにすることが、より一層重要だと照明された。

icon image

おいおい、Anthropicって誰がやってんの? クロード3.0ってのはどんなAIなんだ?

AnthropicはAIの研究団体です。クロード3.0は、人間の言葉を理解して回答できるAIモデルです。内部の仕組みを調べることで、AIの思考過程を明らかにしています。進化した技術で、具体的な物や概念について深く理解し、それに応じて応答を変えることもできるんですよ。

icon image
icon image

Anthropicの研究チームがやったんだけど、これクロード3.0ってAIがどう内部で働いているのかをちゃんと分析することに成功したんだ。
辞書学習っていう手法で、AIがどういう特徴を捉えてるかを把握できたってわけ。

つまりね、AIが何をどう考えて答え出してるのかちょっとわかるようになってんだよ。
場所や物の名前みたいな具体的なものから、バイアスやバグみたいな抽象的な概念まで、どんな要素に対する理解があるのかが見えてきたんだ。

これがすごいのはさ、AIの回答にどう影響してるのかも操作できるってこと。
たとえば、ゴールデンゲートブリッジの特徴を強調すれば、どんな質問に対してもその特徴が反映された答えが返ってくるわけ。

でも、この技術があれば、バックドアみたいな悪用のリスクやバイアスを持った応答を減らしたりもできるから、信頼性のあるAIを作る上ではめちゃくちゃ大事な進歩なんだよ。