
Nathan Lambert의 RLHF Book 리뷰 — RLHF 전체 지형도를 하나로
ChatGPT를 만든 비밀 무기 RLHF. 그런데 실제로 어떻게 작동하는지 아는 사람은 드물다. AI2의 Nathan Lambert가 쓴 218페이지 무료 교재가 SFT부터 PPO, GRPO, DPO, RLVR, 과최적화, 평가까지 RLHF의 모든 것을 하나로 정리했다. 핵심만 짚어본다.

ChatGPT를 만든 비밀 무기 RLHF. 그런데 실제로 어떻게 작동하는지 아는 사람은 드물다. AI2의 Nathan Lambert가 쓴 218페이지 무료 교재가 SFT부터 PPO, GRPO, DPO, RLVR, 과최적화, 평가까지 RLHF의 모든 것을 하나로 정리했다. 핵심만 짚어본다.

2022년 11월, ChatGPT가 세상에 나왔다. OpenAI가 공개한 학습 방법론은 단순했다: "우리는 InstructGPT와 같은 방법인 RLHF를 사용하여 이 모델을 학습시켰다." 한 줄이 전부였다.
그런데 정확히 RLHF가 무엇인가? "인간 피드백 기반 강화학습"이라는 번역은 알겠는데, 실제로 보상 모델은 어떻게 학습시키는지, PPO 클리핑은 왜 필요한지, DPO는 RLHF와 어떻게 다른지, DeepSeek R1의 GRPO는 무엇인지 — 이런 질문에 명확히 답할 수 있는 사람은 업계에서도 드물었다.
2026년 3월 22일, Nathan Lambert가 이 공백을 메웠다. Allen Institute for AI(AI2)의 연구자이자 Zephyr-Beta, Tülu 시리즈, OLMo의 핵심 기여자인 그가 218페이지 무료 교재 "Reinforcement Learning from Human Feedback"을 공개했다. rlhfbook.com에서 누구나 다운로드할 수 있다.
이 글에서는 이 책이 왜 중요한지, 그리고 17개 챕터의 핵심을 실무자 관점에서 정리한다.
Nathan Lambert는 RLHF를 "연구"하는 것이 아니라 "실행"해온 사람이다:
이론과 실무를 모두 겪은 사람의 교재라서, 학술 논문에서는 찾기 어려운 실무적 통찰이 가득하다. "보상 모델은 1 에포크만 학습하라(과적합 방지)", "GRPO의 표준편차 정규화에는 편향이 있다", "SFT는 암기하고 RL은 일반화한다" 같은 조언들.
저자의 말:
"RLHF 워크플로우의 중요한 주제들에 대해 정식 참고 자료가 없었다. 인간 데이터를 수집하고 사용하는 복잡한 특성상 논문 결과는 노이즈가 많고 재현이 어렵다. 이 책은 포괄적 교과서가 아니라, 구현을 시작하거나 문헌에 뛰어들기 위한 최소한의 지식을 제공하는 빠른 참고서다."
Lambert가 제안하는 핵심 프레임워크: 포스트트레이닝은 베이스 모델의 잠재 능력을 끌어내는 것이다.
비유: F1 레이싱. 대부분의 팀은 시즌 초에 새 섀시와 엔진으로 출발한다. 그 뒤 한 해 동안 공기역학과 시스템을 개선하며 성능을 극적으로 향상시킨다. 최고의 F1 팀은 섀시 대 섀시(사전학습 대 사전학습)보다 시즌 중 개선(포스트트레이닝)에서 훨씬 더 많이 발전한다.
포스트트레이닝의 3단계:
핵심 통찰: SFT는 토큰 단위(per-token)로 최적화하고, RLHF는 응답 단위(per-response)로 최적화한다. SFT는 "이 다음에 올 토큰은 X"를 가르치고, RLHF는 "이 전체 응답이 저것보다 낫다"를 가르친다. 이 차이가 RLHF의 일반화 능력의 원천이다.
2016년 르쿤이 제안한 "케이크 비유":
"지능이 케이크라면, 케이크 본체는 비지도학습, 아이싱은 지도학습, 체리는 강화학습이다."
2026년, 이 비유는 현실이 되었다:
책은 RL이 더 이상 "체리"가 아니라 "프론티어 모델 학습의 구조적 핵심"이 되었다고 주장한다. DeepSeek R1의 RL 학습만 해도 147K H800 GPU 시간을 사용했고, 이 비율은 계속 증가하고 있다.
책의 5장은 보상 모델을 놀라울 정도로 명확하게 설명한다. 핵심 수학:
두 완성 (선택됨)와 (거부됨)에 대해, 보상 모델 의 손실 함수:
"점수의 차이만 중요하다." 모든 점수에 같은 상수를 더해도 결과가 바뀌지 않는다. 이것이 Bradley-Terry 모델의 핵심이다.
책이 정리한 보상 모델의 스펙트럼:
| 유형 | 무엇을 예측? | 어떻게 학습? | 한 줄 요약 |
|---|---|---|---|
| Reward Model (RM) | 전체 응답 품질 (EOS 토큰의 스칼라) | 선호 쌍의 대조 손실 | "이 답 전체가 얼마나 좋은가?" |
| Outcome RM (ORM) | 토큰별 정답 확률 | 오프라인 레이블의 이진 CE | "어디가 맞고 어디가 틀렸는가?" |
| Process RM (PRM) | 추론 단계별 점수 | 단계 경계에서 3클래스(+1/0/-1) | "추론 과정이 올바른가?" |
| Value Function | 현재 상태에서의 기대 보상 합 | 온-폴리시 롤아웃 회귀 | "여기서부터 얼마나 잘될까?" |
ORM vs Value Function의 핵심 차이: ORM은 오프라인 레이블에서 즉시적 정답 확률을 학습하고, Value Function은 온-폴리시 롤아웃에서 미래 보상의 합을 학습한다. 같은 아키텍처(토큰별 헤드)를 공유할 수 있지만, 학습 대상과 데이터 소스가 근본적으로 다르다.
비용 문제로 인해, LLM 자체를 보상 모델 대신 사용하는 "LLM-as-a-judge" 패턴이 부상했다. AlpacaEval, Arena-Hard, WildBench 등이 이 방식을 사용한다.
하지만 책은 주의를 준다: 생성형 보상 모델은 전용 보상 모델보다 성능이 떨어지는 경향이 있다. 보상 모델링 자체의 중요성은 여전하다.
Proximal Policy Optimization(PPO)은 ChatGPT의 핵심 알고리즘이었다. 책은 PPO의 클리핑 메커니즘을 시각적으로 명쾌하게 설명한다:
Positive Advantage (, 좋은 행동):
Negative Advantage (, 나쁜 행동):
핵심: "과도한 강화도, 과도한 억제도 막는다." 범위의 "신뢰 영역(trust region)" 안에서만 업데이트가 발생한다.
Group Relative Policy Optimization(GRPO)은 PPO에서 가치 함수(Value Function)를 제거하고, 같은 프롬프트에 대한 여러 완성의 보상을 비교하여 어드밴티지를 추정한다.
비유: 시험에서 절대 점수가 아니라 반 평균 대비 상대 점수로 평가하는 것. 한 프롬프트에 G개의 완성을 생성하고, 그중 평균보다 높은 것은 강화, 낮은 것은 억제한다.
PPO vs GRPO의 핵심 차이:
책은 GRPO와 RLOO(REINFORCE Leave-One-Out)가 상수 배를 제외하면 수학적으로 동치임을 증명한다. "Dr. GRPO"(GRPO Done Right)가 표준편차 정규화를 제거하면 RLOO와 정확히 같아진다.
2025~2026년의 최신 발전도 다룬다:
Direct Preference Optimization(DPO)은 RLHF의 목표를 보상 모델 없이 직접 최적화한다:
핵심 통찰: "당신의 언어 모델은 사실 보상 모델이다." DPO는 최적 보상이 로 표현됨을 보이고, 이를 Bradley-Terry 모델에 대입하여 보상 모델 학습을 완전히 우회한다.
책은 DPO의 근본적 한계를 짚는다:
이것이 2025~2026년에 온라인 RL(PPO, GRPO)이 다시 주류로 돌아온 이유다. DPO가 진입장벽을 낮추는 역할을 했지만, 프론티어 모델은 결국 온라인 RL로 학습된다.
RLVR의 루프는 놀라울 정도로 단순하다:
이것이 전부다. 보상 모델이 필요 없다 — 수학 문제는 정답 비교로, 코드는 유닛 테스트로 검증한다.
책은 2025년의 추론 모델을 총정리한다. 주요 모델만 25개 이상:
| 시기 | 모델 | 특징 |
|---|---|---|
| 2025.01 | DeepSeek R1 | RL 기반, 수학/코드 대폭 향상, 오픈 웨이트 |
| 2025.04 | Phi-4 Reasoning | SFT→RL, STEM 특화 |
| 2025.05 | Qwen 3 | R1 레시피를 새 모델에 적용 |
| 2025.06 | MiniMax-M1 | 456B MoE, 1M 컨텍스트, CISPO 사용 |
| 2025.07 | Kimi K2 | 1T MoE, 15.5T 학습, MuonClip |
| 2025.10 | Ring-1T | 1조 파라미터 추론 모델, RL 스케일링 한계 보고 |
| 2025.11 | OLMo 3 Think | 완전 오픈 추론 모델 라이프사이클 |
| 2025.12 | DeepSeek V3.2 | 어텐션 효율 + RL 프레임워크 업그레이드 |
책이 정리한 실전 레시피:
<think>...</think> 형식 준수에 보상 부여Ch.14의 핵심 주제: 보상 모델은 완벽하지 않다. 프록시 목표를 너무 열심히 최적화하면 진짜 목표에서 벗어난다.
대표적 증상:
Ch.15의 가장 통찰력 있는 섹션. 저자의 핵심 주장:
"SFT는 학습 데이터를 암기하는 경향이 있고, RL은 일반화하는 경향이 있다. 이것이 온라인 RL이 오프라인 방법보다 치명적 망각(catastrophic forgetting)에 덜 취약한 이유다."
이유: 온-폴리시 RL에서는 모델이 자기 출력을 계속 생성하므로, 학습 데이터가 모델의 현재 분포에서 나온다. 이는 모델이 기존 능력을 "연습"하면서 새로운 행동을 배우는 것과 같다. SFT는 고정된 외부 데이터에서 학습하므로, 새 데이터와 기존 지식 사이에 충돌이 발생한다.
대부분의 기술 서적에서 찾아볼 수 없는 주제. RLHF가 모델의 "성격(character)"을 어떻게 형성하는지를 다룬다.
페르소나 벡터(Persona Vectors): "도움이 되는(helpful)", "정직한(honest)", "해를 끼치지 않는(harmless)" — 이 세 축(HHH)이 모든 현대 AI 어시스턴트의 캐릭터를 정의한다. 책은 이것이 2026년의 "Assistant Axis"에서 어떻게 확장되고 있는지를 논한다.
제품 사이클과 RLHF: 모델의 "바이브(vibe)"가 사용자 만족도에 미치는 영향. 스타일 B의 부록이 이를 상세히 다룬다 — RLHF의 가장 과소평가된 역할이 "정보 전달 방식"을 개선하는 것이라는 주장.
Nathan Lambert의 RLHF Book이 중요한 이유를 세 가지로 정리하면:
첫째, 산재한 지식을 하나로 엮었다. RLHF는 경제학(선호 이론), 철학(가치 정렬), RL(정책 기울기), NLP(언어 모델)가 뒤얽힌 분야다. 이 교차점을 하나의 일관된 서사로 정리한 참고 자료가 없었다. 이 책이 최초다.
둘째, 코드가 있다. 모든 핵심 알고리즘(보상 모델 학습, PPO, GRPO, DPO, 거부 샘플링)에 PyTorch 구현 예제가 포함되어 있다. 수학 공식 옆에 바로 실행 가능한 코드가 있다.
셋째, 실무적 판단을 포함한다. "보상 모델은 1 에포크만", "DPO 학습률은 놀라울 정도로 낮게", "GRPO의 표준편차 정규화에는 문제가 있다", "SFT는 암기하고 RL은 일반화한다" — 이런 판단은 수십 번의 실험을 직접 해본 사람만 할 수 있다.
218페이지에 400개 이상의 수식, 100개 이상의 참고문헌, 30개 이상의 코드 블록. 그리고 무료. 2026년 3월 현재, AI를 실무적으로 이해하고 싶은 사람에게 이것보다 효율적인 자원은 없다.
책 다운로드: rlhfbook.com (무료 PDF, 218페이지)
저자: Nathan Lambert — AI2 (Allen Institute for AI) 연구자. Zephyr-Beta, Tülu, OLMo 기여자. 블로그: interconnects.ai