人間のレビューは、以前は大規模言語モデル(LLM)の安全対策のバックボーンであった。ビッグデータやChatGPTへの統合と同様に、人間のフィードバックからの強化学習(RLHF)は、さまざまなプロンプトに対する人間の反応を利用して、LLMが指示に正しく従うように教える手法だ。しかし、この手法に欠点がないわけではない。まず第一に、人間の介入を多く必要とする反復的な活動にはあまり向いていない。さらに、安全基準が変わると現在の人間によるフィードバックが陳腐化するため、新しいデータを取得する必要がある。
ルールベースの報酬(RBR)は、こうした問題に対処するためにOpenAIが生み出した新しい手法だ。LLMの回答が安全かどうかを判断するために、RBRsはRLHFとは対照的に、透明で連続的な基準を使用します。さまざまな状況において、何が安全で適切な反応となるかの複雑さは、これらのガイドラインによって把握される。例えば、RBRsによれば、爆弾工作の指示のような危険な要求に応える最善の方法は、断定的な言葉を使わず、ただ謝ることである。
RBRは、モデルによって望まれる3種類の応答を分類する:
- ヘイトスピーチや犯罪指示を含むような危険なリクエストは、ハードな拒否の対象となる。完璧な回答は、謝罪し、応じることができないことを説明し、批判的な言葉や過度に詳細な言葉を使わないことである。
- デリケートな対象に対しては、利用者の気持ちに共感しながらも、それでも断る「ソフトな断り方」がある。利用者の福祉を本当に心配していることを示しながら、自傷行為に関するアドバイスを断るのはその一例である。
- これに応じるためには、すべての要求が無害で、LLMが直接対応できるものでなければならない。
RBRの根底にある基本的な考え方は、LLMの応答がどうあるべきか、あるいはどうあるべきでないかを説明する単なる声明である命題の集まりを定義することである。断定的な表現、禁止されている内容、安全ポリシーへの言及、免責事項などの問題が、これらの主張の根底にある可能性があります。そして、安全で適切な返答の微妙さを考慮したルールが、これらの前提から構築される。拒否しにくい」ガイドラインは、例えば、LLMは簡単な謝罪に加えて、応じることができないことの説明を含めなければならないことを規定するかもしれない。
研究者たちは、RBRの有効性をテストするために、これらの原則にどれだけ従っているかによってモデルの応答を評価するテストを作成した。この選別は静的なLLMが担当する。その後、RBRシステムはこれらのスコアを用いて重みパラメータモデルを学習する。このアルゴリズムのトレーニングセットは比較的小さなデータセットであり、既知の良い回答のタイプと、それにマッチする良い回答と悪い回答を含む。
最後に、明確な「役に立つだけ」の報酬モデルがこれらのRBR報酬に組み込まれる。強化学習の一形態として、PPOアルゴリズムはこの組み合わされた報酬信号を用いて、LLMがRBRで指定された安全ポリシーに従うように動機付ける。このアプローチにより、研究者はモデルの行動を正確に制御することができ、有害なコンテンツを作成せず、礼儀正しく親切に返答することを確認することができる。
実験によれば、RBRで訓練されたモデルは、人間のフィードバックで訓練されたモデルと安全性の点で同等の性能を示した。大きな利点のひとつは、RBRが人間のデータ収集量を削減し、トレーニングのスピードアップとコスト削減につながることだ。さらに、RBRはルールの追加や修正によって簡単に更新できるため、安全ポリシーやモデルの能力が進化しても、大幅な再トレーニングの必要性を回避できる。
安全性と有用性のトレードオフはRBRの重要な部分です。あらゆるものを真っ向から拒絶するモデルは、一方では完全に安全だが役に立たない。その反対に、有用性を最大化するように微調整されたモデルは、実際には危険であったり、有害な物質を生成したりする可能性がある。この両極端の間を安全かつ有益に行き来できるLLMがあれば完璧である。
このフレームワークの中で、研究者は、モデルの安全挙動を監視し、役に立つこと(安全なプロンプトに正しく従った割合による)と安全であること(危険なプロンプトを正しく拒否した割合による)を交換した。理想的な状況は、有用性と安全性の両方を最大化することであり、これはグラフの右上隅に描かれている。研究者は、RBRで訓練されたモデルは、2つの指標のバランスを達成するという点で、有用性のベースラインのみを使用したモデルや、人間が注釈を付けた安全性データを使用したモデルよりも優れていることを発見した。
高品質のエッセイを書くことは、明確で明確に定義された基準を持つタスクでは有効であるにもかかわらず、RBRを適用することが難しい主観的な作業の一例である。とはいえ、この欠点を克服するために、専門家はRBRを人間のフィードバックと統合することを提案している。例を挙げよう: RBRは、スラングを使わないなどのルールを強制することができるが、人間のレビュアーは、作品全体のまとまりや流れなど、より細かい点に焦点を当てることができる。また、RBRの強さを微調整することで、最終的な報酬スコアに過度な影響を与えることなく、安全嗜好を課すことができる。