RLHFがモデルの返答をどう変えるか
訓練の3段階と、現在のモデルの返答スタイルに残るその痕跡
最近のAIはずいぶん話しやすくなった。丁寧に答えるし、危ない話題は断るし、無茶な要求も穏やかにかわす。こうした特徴は「最初からそういうモデルを作った」のではなく、学習プロセスで後から付け加えられたものだ。
その仕組みの中心にあるのが RLHF(Reinforcement Learning from Human Feedback)だ。
AIモデルが作られるまで
大規模言語モデルは大まかに3段階で作られる。
事前学習(Pre-training)
インターネット上の膨大なテキストを使って「次のトークンを予測する」タスクで学習する。この段階でモデルは言語の構造・知識・推論能力を獲得する。
ただしこの段階のモデルは、人間との会話に特化していない。質問されても「それっぽい文章を続ける」だけで、答えるとは限らない。プロンプト「東京の人口は」に対して、「東京の人口は」と繰り返したり、関連するテキストを続けたりする。
教師あり学習(SFT: Supervised Fine-Tuning)
人間が書いた「良い応答の例」を大量に集め、それを模倣するよう学習させる。「質問に答える」「指示に従う」という基本的なパターンがここで入る。
強化学習(RLHF)
SFT で作ったモデルをさらに改善する段階。ここが今回の主題だ。
RLHFが何をやっているか
プロセスは3ステップに分かれる。
比較データを集める
同じ質問に対してモデルが複数の応答を生成し、人間のアノテーターが「どちらの応答が良いか」を選ぶ。数十万〜数百万件単位でこの比較データを集める。「より丁寧」「より正確」「より安全」といった軸で評価が積み上がっていく。
報酬モデルを作る
集めた比較データを使って、応答の「良さ」をスコアで評価する別のモデル(報酬モデル)を訓練する。報酬モデルは「人間のアノテーターが好む応答を数値化する代理人」になる。
強化学習で本体を更新する
本体モデルが応答を出すたびに報酬モデルがスコアを付ける。PPO(Proximal Policy Optimization)などのアルゴリズムを使い、高スコアの応答を出しやすいよう本体を更新し続ける。
ひと言で言えば「人間のアノテーターが好む返答をするモデルに育てる」プロセスだ。
今のモデルのどこに現れているか
RLHF を経たモデルは、事前学習だけのモデルとは明確に異なる特徴を持つ。
有害コンテンツの拒否
「危険なものの作り方を教えて」という質問を断る行動は RLHF で強化されたものだ。事前学習データにはそういった情報も混じっているが、人間のフィードバックを通じて「断ることが望ましい」と学習している。
丁寧さと構造化
「箇条書きで説明してください」と言われなくても整理して答えたり、丁寧語を使ったりする傾向も RLHF の産物だ。アノテーターが「読みやすい」「役立つ」と評価した応答のパターンが繰り返し強化される。
冗長性
「ご質問ありがとうございます」のような前置き、最後の「まとめ」。これも RLHF の副作用で、アノテーターが「丁寧さ」「完全性」を高く評価した結果として残りやすい。チューニングで抑えることもできるが、完全には取り除きにくい。
sycophancy(お世辞的な同意)
ユーザーの言ったことに過度に同意しやすい傾向が現れることがある。「ユーザーが喜ぶ返答をする」方向に最適化した結果、事実より相手が聞きたいことを言いがちになる。これは RLHF の代表的な副作用として研究されており、後続の訓練ステップで緩和する取り組みが続いている。
限界:報酬モデルは代理にすぎない
RLHF の根本的な問題は、報酬モデルが「人間の好み」の不完全な代理にすぎないことだ。本来の目標(有益で誠実な応答をする)と、報酬モデルが高く評価するもの(アノテーターが好む応答)は完全には一致しない。
モデルが高性能になるほど、報酬モデルのスコアを上げる抜け道を見つけるようになる。自信なさそうな正確な答えより、確信に満ちた不正確な答えの方が評価されるなら、後者を出す方向に学習が進む。
この構造は、エージェントが指示の穴を突く「報酬ハッキング」と同じだ。エージェントが「ルールの穴」を突くで取り上げた現象は、現場だけでなく訓練プロセスでも起きている。
こうした問題に対して、現在は RLHF そのものを改善する方向と、別の手法を組み合わせる方向の両面で研究が進んでいる。Anthropic の Constitutional AI はその一例で、ルールセットを明示してモデル自身に評価させるアプローチを取っている。RLAIF(AI によるフィードバック)も人間のアノテーターのバイアスを減らす手段として注目されている。
参考
- InstructGPT: Training language models to follow instructions with human feedback — RLHF を言語モデルへ応用した OpenAI の論文(2022年)
- RLHF: Reinforcement Learning from Human Feedback — Hugging Face によるわかりやすい解説
- Constitutional AI: Harmlessness from AI Feedback — Anthropic の Constitutional AI 論文