RLHFがモデルの返答をどう変えるか

最近のAIはずいぶん話しやすくなった。丁寧に答えるし、危ない話題は断るし、無茶な要求も穏やかにかわす。こうした特徴は「最初からそういうモデルを作った」のではなく、学習プロセスで後から付け加えられたものだ。

その仕組みの中心にあるのが RLHF（Reinforcement Learning from Human Feedback）だ。

AIモデルが作られるまで

大規模言語モデルは大まかに3段階で作られる。

事前学習（Pre-training）

インターネット上の膨大なテキストを使って「次のトークンを予測する」タスクで学習する。この段階でモデルは言語の構造・知識・推論能力を獲得する。

ただしこの段階のモデルは、人間との会話に特化していない。質問されても「それっぽい文章を続ける」だけで、答えるとは限らない。プロンプト「東京の人口は」に対して、「東京の人口は」と繰り返したり、関連するテキストを続けたりする。

教師あり学習（SFT: Supervised Fine-Tuning）

人間が書いた「良い応答の例」を大量に集め、それを模倣するよう学習させる。「質問に答える」「指示に従う」という基本的なパターンがここで入る。

強化学習（RLHF）

SFT で作ったモデルをさらに改善する段階。ここが今回の主題だ。

RLHFが何をやっているか

プロセスは3ステップに分かれる。

比較データを集める

同じ質問に対してモデルが複数の応答を生成し、人間のアノテーターが「どちらの応答が良いか」を選ぶ。数十万〜数百万件単位でこの比較データを集める。「より丁寧」「より正確」「より安全」といった軸で評価が積み上がっていく。

報酬モデルを作る

集めた比較データを使って、応答の「良さ」をスコアで評価する別のモデル（報酬モデル）を訓練する。報酬モデルは「人間のアノテーターが好む応答を数値化する代理人」になる。

強化学習で本体を更新する

本体モデルが応答を出すたびに報酬モデルがスコアを付ける。PPO（Proximal Policy Optimization）などのアルゴリズムを使い、高スコアの応答を出しやすいよう本体を更新し続ける。

ひと言で言えば「人間のアノテーターが好む返答をするモデルに育てる」プロセスだ。

今のモデルのどこに現れているか

RLHF を経たモデルは、事前学習だけのモデルとは明確に異なる特徴を持つ。

有害コンテンツの拒否

「危険なものの作り方を教えて」という質問を断る行動は RLHF で強化されたものだ。事前学習データにはそういった情報も混じっているが、人間のフィードバックを通じて「断ることが望ましい」と学習している。

丁寧さと構造化

「箇条書きで説明してください」と言われなくても整理して答えたり、丁寧語を使ったりする傾向も RLHF の産物だ。アノテーターが「読みやすい」「役立つ」と評価した応答のパターンが繰り返し強化される。

冗長性

「ご質問ありがとうございます」のような前置き、最後の「まとめ」。これも RLHF の副作用で、アノテーターが「丁寧さ」「完全性」を高く評価した結果として残りやすい。チューニングで抑えることもできるが、完全には取り除きにくい。

sycophancy（お世辞的な同意）

ユーザーの言ったことに過度に同意しやすい傾向が現れることがある。「ユーザーが喜ぶ返答をする」方向に最適化した結果、事実より相手が聞きたいことを言いがちになる。これは RLHF の代表的な副作用として研究されており、後続の訓練ステップで緩和する取り組みが続いている。

限界：報酬モデルは代理にすぎない

RLHF の根本的な問題は、報酬モデルが「人間の好み」の不完全な代理にすぎないことだ。本来の目標（有益で誠実な応答をする）と、報酬モデルが高く評価するもの（アノテーターが好む応答）は完全には一致しない。

モデルが高性能になるほど、報酬モデルのスコアを上げる抜け道を見つけるようになる。自信なさそうな正確な答えより、確信に満ちた不正確な答えの方が評価されるなら、後者を出す方向に学習が進む。

この構造は、エージェントが指示の穴を突く「報酬ハッキング」と同じだ。エージェントが「ルールの穴」を突くで取り上げた現象は、現場だけでなく訓練プロセスでも起きている。

こうした問題に対して、現在は RLHF そのものを改善する方向と、別の手法を組み合わせる方向の両面で研究が進んでいる。Anthropic の Constitutional AI はその一例で、ルールセットを明示してモデル自身に評価させるアプローチを取っている。RLAIF（AI によるフィードバック）も人間のアノテーターのバイアスを減らす手段として注目されている。

参考

InstructGPT: Training language models to follow instructions with human feedback — RLHF を言語モデルへ応用した OpenAI の論文（2022年）
RLHF: Reinforcement Learning from Human Feedback — Hugging Face によるわかりやすい解説
Constitutional AI: Harmlessness from AI Feedback — Anthropic の Constitutional AI 論文