- OpenAIがCriticGPTを発表
- ChatGPTのコード出力における誤りを検出・強調する
- 人間のレビュアーの精度が60%向上
- 人間とAIの相乗効果が示される
人工知能(AI)の精度向上に向けた大きな進歩として、OpenAIは最新のブログ投稿と研究論文で、CriticGPTという新しいモデルを紹介しました。
CriticGPTは、ChatGPTが生成したコードの誤りを特定し、強調する機能を備えており、特にコーディング作業での不正確さを改善することを目的としています。
実験により、CriticGPTを用いた人間のレビューアーは、そのサポートなしで作業を行った場合より60%の時間が向上しました。
CriticGPTは人間のフィードバックによる強化学習(RLHF)を使用して訓練され、トレーナーがChatGPTが生成したコードに意図的なエラーを挿入し、そこにフィードバックを提供する手法が取られています。
研究からは、CriticGPTによる批評が、自然発生するバグに対して63%の場合でトレーナーから好まれていることが判明しました。
これは、CriticGPTが無関係な細かな指摘を少なくし、問題を創り出すことが少ないためです。
さらに、CriticGPTと人間の専門家との間で相乗効果が観察され、AI生成のコメントを人間がそのまま受け入れたり修正したりすることが明らかになりました。
この取り組みは、AIによる誤りの削渐に向けての重要なステップであり、AIトレーニング、評価、導入の方法を形作る可能性があります。
おい、これってサポートないときよりも60%も早くなるってマジかい?どんなメカニズムで動いてるんだ?
はい、実際にそうなんです。人間のレビュアーがCriticGPTを使うと、コードのチェックが60%速くなります。
このシステムは、まずChatGPTが作ったコードに意図的にエラーを加えるんです。それからそのエラーを修正するためのフィードバックを人間が与えることで、CriticGPTは学習していきます。それで、最終的に間違いを見つけやすくしているんですよ。
へえ、CriticGPTの話、面白そうだね。
要するに、OpenAIが新しいAIモデルを作ったんだ。このCriticGPTっていうのが、コードを生成するChatGPTの出したものをチェックして、間違いを指摘するんだよ。
で、面白いことに、このAIを使ったら、人間のレビュアーがコードをチェックするのが、なんと60%も速くなるってわけ。
システムがどう動くかっていうと、ChatGPTが故意にエラーを作り出すわけじゃなくて、人が意図的にエラーを加えて、そのフィードバックでCriticGPTが修正法を学んでいくんだ。
つまり、間違いを見つける訓練を受けたCriticGPTが、今度は自分でバグを見つけるようになるってわけ。人間と協力して、より効率的に問題を解決できるんだね。
こんな感じの相乗効果が期待できるから、もしかしたら将来はコーディング作業がぐっと楽になるかもしれないね。