機械学習は、機械学習を使用する人々に将来的により良い機械学習結果を提供できるようにするために、機械学習の結果を検証し、批判します。別の言い方をすると、ChatGPT の作成者である OpenAI は、 GPT-4 に基づいており、ChatGPT コード出力のエラーを検出するようにトレーニングされたCriticGPT と呼ばれる新しいモデルを開発しました。少なくともプレスリリースによると、CriticGPT サポートを使用すると、サポートしない場合よりもユーザーのエラー検出効率が 60% 向上するといわれています。 ChatGPT の原動力である GPT-4 は、RLHF を通じて役立つ、対話型になるように設計されています。 RHLFってどういう意味ですか?強化 –人間のフィードバックからの学習(RLHF) – 人間のフィードバックを使用して AI モデルを最適化し、AI モデルがより効率的に学習できるようにします。
CriticGPT は、批評を通じて ChatGPT の回答の不正確さを強調するように設計されています。しかし、CriticGPTの提案も常に正しいわけではないとOpenAIは続ける。この概念は今でも役に立ちます。同社はまた、システムがまだ完璧には程遠い理由についても説明している。CriticGPT はかなり短い ChatGPT の答えで訓練されているが、将来のモデルはおそらくより長く複雑なタスクを理解する必要があるだろう。回答の多くの部分に広がるエラーには現時点では対処できず、タスクや回答が非常に複雑な場合、CriticGPT には現在も問題が発生しています。

