coredot.today
Nathan Lambert의 RLHF Book 리뷰 — RLHF 전체 지형도를 하나로
블로그로 돌아가기
RLHF보상 모델PPOGRPODPORLVR포스트트레이닝Nathan LambertAI 정렬

Nathan Lambert의 RLHF Book 리뷰 — RLHF 전체 지형도를 하나로

ChatGPT를 만든 비밀 무기 RLHF. 그런데 실제로 어떻게 작동하는지 아는 사람은 드물다. AI2의 Nathan Lambert가 쓴 218페이지 무료 교재가 SFT부터 PPO, GRPO, DPO, RLVR, 과최적화, 평가까지 RLHF의 모든 것을 하나로 정리했다. 핵심만 짚어본다.

코어닷투데이2025-12-0423

들어가며: ChatGPT를 만든 "비밀 재료"

RLHF Book: 인간 피드백에서 강화학습까지

2022년 11월, ChatGPT가 세상에 나왔다. OpenAI가 공개한 학습 방법론은 단순했다: "우리는 InstructGPT와 같은 방법인 RLHF를 사용하여 이 모델을 학습시켰다." 한 줄이 전부였다.

그런데 정확히 RLHF가 무엇인가? "인간 피드백 기반 강화학습"이라는 번역은 알겠는데, 실제로 보상 모델은 어떻게 학습시키는지, PPO 클리핑은 왜 필요한지, DPO는 RLHF와 어떻게 다른지, DeepSeek R1의 GRPO는 무엇인지 — 이런 질문에 명확히 답할 수 있는 사람은 업계에서도 드물었다.

2026년 3월 22일, Nathan Lambert가 이 공백을 메웠다. Allen Institute for AI(AI2)의 연구자이자 Zephyr-Beta, Tülu 시리즈, OLMo의 핵심 기여자인 그가 218페이지 무료 교재 "Reinforcement Learning from Human Feedback"을 공개했다. rlhfbook.com에서 누구나 다운로드할 수 있다.

이 글에서는 이 책이 왜 중요한지, 그리고 17개 챕터의 핵심을 실무자 관점에서 정리한다.


제1장: 이 책이 특별한 이유

저자가 직접 만들어본 사람이다

Nathan Lambert는 RLHF를 "연구"하는 것이 아니라 "실행"해온 사람이다:

  • Zephyr-Beta (2023.10): DPO 학습률의 결정적 발견으로 DPO 시대를 개막. Chris Manning이 "DPO를 구해줬다"고 감사를 표한 그 모델.
  • Tülu 2/3 (2024): AI2의 포스트트레이닝 레시피. RLVR(검증 가능 보상 기반 강화학습) 개념을 최초 제안.
  • OLMo 시리즈: 완전 오픈소스 모델의 포스트트레이닝.
  • Open Instruct, TRL 등 오픈소스 RLHF 도구 기여.

이론과 실무를 모두 겪은 사람의 교재라서, 학술 논문에서는 찾기 어려운 실무적 통찰이 가득하다. "보상 모델은 1 에포크만 학습하라(과적합 방지)", "GRPO의 표준편차 정규화에는 편향이 있다", "SFT는 암기하고 RL은 일반화한다" 같은 조언들.

왜 지금 이 책인가?

저자의 말:

"RLHF 워크플로우의 중요한 주제들에 대해 정식 참고 자료가 없었다. 인간 데이터를 수집하고 사용하는 복잡한 특성상 논문 결과는 노이즈가 많고 재현이 어렵다. 이 책은 포괄적 교과서가 아니라, 구현을 시작하거나 문헌에 뛰어들기 위한 최소한의 지식을 제공하는 빠른 참고서다."

책의 구조: 5개 블록, 17개 챕터

RLHF Book 전체 구조
도입 Ch.1 소개, Ch.2 역사, Ch.3 학습 개요
핵심 파이프라인 Ch.4 SFT, Ch.5 보상 모델, Ch.6 RL, Ch.7 추론, Ch.8 DPO, Ch.9 거부 샘플링
데이터 & 선호 Ch.10 선호의 본질, Ch.11 데이터 수집, Ch.12 합성 데이터, Ch.13 도구 사용
실무 고려사항 Ch.14 과최적화, Ch.15 정규화, Ch.16 평가, Ch.17 제품/UX/캐릭터

제2장: 포스트트레이닝의 3단계 — 이 책의 뼈대

"끌어내기 이론(Elicitation Theory)"

Lambert가 제안하는 핵심 프레임워크: 포스트트레이닝은 베이스 모델의 잠재 능력을 끌어내는 것이다.

비유: F1 레이싱. 대부분의 팀은 시즌 초에 새 섀시와 엔진으로 출발한다. 그 뒤 한 해 동안 공기역학과 시스템을 개선하며 성능을 극적으로 향상시킨다. 최고의 F1 팀은 섀시 대 섀시(사전학습 대 사전학습)보다 시즌 중 개선(포스트트레이닝)에서 훨씬 더 많이 발전한다.

포스트트레이닝의 3단계:

현대 LLM 포스트트레이닝 파이프라인
1. IFT/SFT 인스트럭션 파인튜닝: 질의-응답 형식을 가르침. 언어의 피처(feature)를 학습.
2. PreFT (RLHF) 선호 파인튜닝: 인간 선호에 정렬. 언어의 스타일(style)을 학습. 정량화하기 어려운 미묘한 선호를 내재화.
3. RLVR 검증 가능 보상 기반 RL: 수학/코드 등 검증 가능한 영역에서 순수 RL 학습. 추론 능력을 극적으로 향상.

핵심 통찰: SFT는 토큰 단위(per-token)로 최적화하고, RLHF는 응답 단위(per-response)로 최적화한다. SFT는 "이 다음에 올 토큰은 X"를 가르치고, RLHF는 "이 전체 응답이 저것보다 낫다"를 가르친다. 이 차이가 RLHF의 일반화 능력의 원천이다.

르쿤의 케이크 비유, 완성되다

2016년 르쿤이 제안한 "케이크 비유":

"지능이 케이크라면, 케이크 본체는 비지도학습, 아이싱은 지도학습, 체리는 강화학습이다."

2026년, 이 비유는 현실이 되었다:

  • 케이크 본체 = 자기지도학습 사전학습 (컴퓨트의 대부분)
  • 아이싱 = SFT (질의-응답 형식으로 전환)
  • 체리 = RL (추론 모델의 핵심)

책은 RL이 더 이상 "체리"가 아니라 "프론티어 모델 학습의 구조적 핵심"이 되었다고 주장한다. DeepSeek R1의 RL 학습만 해도 147K H800 GPU 시간을 사용했고, 이 비율은 계속 증가하고 있다.


제3장: 보상 모델 — RLHF의 심장

Bradley-Terry 모델: 선호를 수학으로

책의 5장은 보상 모델을 놀라울 정도로 명확하게 설명한다. 핵심 수학:

두 완성 ycy_c(선택됨)와 yry_r(거부됨)에 대해, 보상 모델 rθr_\theta의 손실 함수:

L(θ)=logσ(rθ(ycx)rθ(yrx))\mathcal{L}(\theta) = -\log\sigma(r_\theta(y_c | x) - r_\theta(y_r | x))

"점수의 차이만 중요하다." 모든 점수에 같은 상수를 더해도 결과가 바뀌지 않는다. 이것이 Bradley-Terry 모델의 핵심이다.

4가지 보상 모델 유형

책이 정리한 보상 모델의 스펙트럼:

유형무엇을 예측?어떻게 학습?한 줄 요약
Reward Model (RM)전체 응답 품질 (EOS 토큰의 스칼라)선호 쌍의 대조 손실"이 답 전체가 얼마나 좋은가?"
Outcome RM (ORM)토큰별 정답 확률오프라인 레이블의 이진 CE"어디가 맞고 어디가 틀렸는가?"
Process RM (PRM)추론 단계별 점수단계 경계에서 3클래스(+1/0/-1)"추론 과정이 올바른가?"
Value Function현재 상태에서의 기대 보상 합온-폴리시 롤아웃 회귀"여기서부터 얼마나 잘될까?"

ORM vs Value Function의 핵심 차이: ORM은 오프라인 레이블에서 즉시적 정답 확률을 학습하고, Value Function은 온-폴리시 롤아웃에서 미래 보상의 합을 학습한다. 같은 아키텍처(토큰별 헤드)를 공유할 수 있지만, 학습 대상과 데이터 소스가 근본적으로 다르다.

생성형 보상 모델(Generative RM): LLM이 심사관

비용 문제로 인해, LLM 자체를 보상 모델 대신 사용하는 "LLM-as-a-judge" 패턴이 부상했다. AlpacaEval, Arena-Hard, WildBench 등이 이 방식을 사용한다.

하지만 책은 주의를 준다: 생성형 보상 모델은 전용 보상 모델보다 성능이 떨어지는 경향이 있다. 보상 모델링 자체의 중요성은 여전하다.


제4장: 강화학습 알고리즘 — PPO에서 GRPO까지

PPO: ChatGPT의 무기

Proximal Policy Optimization(PPO)은 ChatGPT의 핵심 알고리즘이었다. 책은 PPO의 클리핑 메커니즘을 시각적으로 명쾌하게 설명한다:

Positive Advantage (At>0A_t > 0, 좋은 행동):

  • 정책 비율이 1+ε1+\varepsilon을 넘으면 → 업데이트 중단 (이미 충분히 강화됨)
  • 1ε1-\varepsilon 이하이면 → 정상 업데이트 (더 강화해야 함)

Negative Advantage (At<0A_t < 0, 나쁜 행동):

  • 정책 비율이 1ε1-\varepsilon 미만이면 → 업데이트 중단 (이미 충분히 억제됨)
  • 1+ε1+\varepsilon 이상이면 → 정상 업데이트 (더 억제해야 함)

핵심: "과도한 강화도, 과도한 억제도 막는다." [1ε,1+ε][1-\varepsilon, 1+\varepsilon] 범위의 "신뢰 영역(trust region)" 안에서만 업데이트가 발생한다.

GRPO: DeepSeek의 단순한 혁신

Group Relative Policy Optimization(GRPO)은 PPO에서 가치 함수(Value Function)를 제거하고, 같은 프롬프트에 대한 여러 완성의 보상을 비교하여 어드밴티지를 추정한다.

Ai=rimean(r1,,rG)std(r1,,rG)A_i = \frac{r_i - \text{mean}(r_1, \ldots, r_G)}{\text{std}(r_1, \ldots, r_G)}

비유: 시험에서 절대 점수가 아니라 반 평균 대비 상대 점수로 평가하는 것. 한 프롬프트에 G개의 완성을 생성하고, 그중 평균보다 높은 것은 강화, 낮은 것은 억제한다.

PPO vs GRPO의 핵심 차이:

PPO

가치 함수(Value Network) 필요 — 추가 모델
토큰별 어드밴티지 (GAE)
KL 페널티를 보상에 포함
메모리: 정책 + 레퍼런스 + 가치 함수

GRPO

가치 함수 불필요 — 그룹 통계로 대체
시퀀스별 어드밴티지 (그룹 상대)
KL 페널티를 손실에 직접 포함
메모리: 정책 + 레퍼런스만

책은 GRPO와 RLOO(REINFORCE Leave-One-Out)가 상수 배를 제외하면 수학적으로 동치임을 증명한다. "Dr. GRPO"(GRPO Done Right)가 표준편차 정규화를 제거하면 RLOO와 정확히 같아진다.

최신 알고리즘: GSPO와 CISPO

2025~2026년의 최신 발전도 다룬다:

  • GSPO(Group Sequence Policy Optimization): 토큰 수준이 아닌 시퀀스 수준에서 중요도 샘플링을 적용. 길이가 다른 응답 간 공정한 비교를 가능하게 한다.
  • CISPO(Clipped Importance Sampling PO): PPO와 달리 대리 목표가 아닌 중요도 가중치 자체를 클리핑. 모든 토큰이 기울기 신호를 받아 "토큰 드롭핑" 문제를 방지.

제5장: DPO — 보상 모델 없이 정렬하기

DPO의 핵심 아이디어

Direct Preference Optimization(DPO)은 RLHF의 목표를 보상 모델 없이 직접 최적화한다:

LDPO=E(x,yc,yr)[logσ(βlogπθ(ycx)πref(ycx)βlogπθ(yrx)πref(yrx))]\mathcal{L}_{\text{DPO}} = -\mathbb{E}_{(x,y_c,y_r)} \left[\log\sigma\left(\beta\log\frac{\pi_\theta(y_c|x)}{\pi_{\text{ref}}(y_c|x)} - \beta\log\frac{\pi_\theta(y_r|x)}{\pi_{\text{ref}}(y_r|x)}\right)\right]

핵심 통찰: "당신의 언어 모델은 사실 보상 모델이다." DPO는 최적 보상이 r(x,y)=βlogπ(yx)πref(yx)r(x,y) = \beta\log\frac{\pi^*(y|x)}{\pi_{\text{ref}}(y|x)}로 표현됨을 보이고, 이를 Bradley-Terry 모델에 대입하여 보상 모델 학습을 완전히 우회한다.

DPO의 한계: 왜 "온라인" RL이 다시 돌아왔는가

책은 DPO의 근본적 한계를 짚는다:

  1. 선호 이탈(Preference Displacement): DPO는 선택/거부 간 마진만 늘리려 하여, 양쪽 확률을 모두 낮추면서 거부의 확률을 더 크게 낮춘다. 학습 데이터에 없는 "제3의 행동"의 확률이 높아질 수 있다.
  2. 오프라인 데이터의 한계: 학습 신호가 이전 모델의 완성에서 오므로, 현재 모델의 능력을 충분히 활용하지 못한다. 온라인 방법이 새 완성을 생성하며 더 풍부한 신호를 얻는다.

이것이 2025~2026년에 온라인 RL(PPO, GRPO)이 다시 주류로 돌아온 이유다. DPO가 진입장벽을 낮추는 역할을 했지만, 프론티어 모델은 결국 온라인 RL로 학습된다.


제6장: 추론 모델과 RLVR — RL이 "체리"에서 "기둥"으로

RLVR: 검증 가능한 보상의 단순한 위력

RLVR의 루프는 놀라울 정도로 단순하다:

  1. 여러 질문에 여러 답을 샘플링
  2. 정답인 답으로 기울기 업데이트
  3. 같은 데이터를 반복하며 반복

이것이 전부다. 보상 모델이 필요 없다 — 수학 문제는 정답 비교로, 코드는 유닛 테스트로 검증한다.

2025년 추론 모델 폭발

책은 2025년의 추론 모델을 총정리한다. 주요 모델만 25개 이상:

시기모델특징
2025.01DeepSeek R1RL 기반, 수학/코드 대폭 향상, 오픈 웨이트
2025.04Phi-4 ReasoningSFT→RL, STEM 특화
2025.05Qwen 3R1 레시피를 새 모델에 적용
2025.06MiniMax-M1456B MoE, 1M 컨텍스트, CISPO 사용
2025.07Kimi K21T MoE, 15.5T 학습, MuonClip
2025.10Ring-1T1조 파라미터 추론 모델, RL 스케일링 한계 보고
2025.11OLMo 3 Think완전 오픈 추론 모델 라이프사이클
2025.12DeepSeek V3.2어텐션 효율 + RL 프레임워크 업그레이드

추론 모델 학습의 7가지 공통 패턴

책이 정리한 실전 레시피:

추론 모델 학습 — 2025년 공통 관행
  1. 오프라인 난이도 필터링: 모델이 20~80%만 맞히는 문제만 선별
  2. 배치 내 온라인 필터링: 학습 중 난이도 커리큘럼 실시간 조절
  3. KL 페널티 제거: 추론 모델에서는 탐색을 위해 KL 제약 완화
  4. 완화된 클리핑(DAPO 등): 양방향 클리핑으로 탐색 촉진
  5. 비동기 업데이트: 긴 응답의 분산을 처리하기 위해 오프-폴리시 데이터 사용
  6. 포맷 보상: <think>...</think> 형식 준수에 보상 부여
  7. 길이 페널티: 과도한 사고(overthinking) 방지를 위한 길이 제어

제7장: 과최적화와 정규화 — RLHF의 어두운 면

"너무 많은 RLHF"의 문제

Ch.14의 핵심 주제: 보상 모델은 완벽하지 않다. 프록시 목표를 너무 열심히 최적화하면 진짜 목표에서 벗어난다.

대표적 증상:

  • 과도한 거절(Over-refusal): "너무 안전한" 모델이 무해한 질문도 거절. 예: "칼로 양파를 자르는 법"을 위험하다고 판단.
  • 길이 편향(Length Bias): 보상 모델이 긴 답을 선호하는 편향이 있으면, 모델이 점점 장황해진다.
  • 아첨(Sycophancy): 사용자의 잘못된 주장에도 동의하는 경향.

"SFT는 암기하고, RL은 일반화한다"

Ch.15의 가장 통찰력 있는 섹션. 저자의 핵심 주장:

"SFT는 학습 데이터를 암기하는 경향이 있고, RL은 일반화하는 경향이 있다. 이것이 온라인 RL이 오프라인 방법보다 치명적 망각(catastrophic forgetting)에 덜 취약한 이유다."

이유: 온-폴리시 RL에서는 모델이 자기 출력을 계속 생성하므로, 학습 데이터가 모델의 현재 분포에서 나온다. 이는 모델이 기존 능력을 "연습"하면서 새로운 행동을 배우는 것과 같다. SFT는 고정된 외부 데이터에서 학습하므로, 새 데이터와 기존 지식 사이에 충돌이 발생한다.


제8장: 제품, UX, 그리고 모델 캐릭터

가장 독특한 장: Ch.17

대부분의 기술 서적에서 찾아볼 수 없는 주제. RLHF가 모델의 "성격(character)"을 어떻게 형성하는지를 다룬다.

페르소나 벡터(Persona Vectors): "도움이 되는(helpful)", "정직한(honest)", "해를 끼치지 않는(harmless)" — 이 세 축(HHH)이 모든 현대 AI 어시스턴트의 캐릭터를 정의한다. 책은 이것이 2026년의 "Assistant Axis"에서 어떻게 확장되고 있는지를 논한다.

제품 사이클과 RLHF: 모델의 "바이브(vibe)"가 사용자 만족도에 미치는 영향. 스타일 B의 부록이 이를 상세히 다룬다 — RLHF의 가장 과소평가된 역할이 "정보 전달 방식"을 개선하는 것이라는 주장.


맺으며: RLHF 지형도의 최초 공식 지도

Nathan Lambert의 RLHF Book이 중요한 이유를 세 가지로 정리하면:

첫째, 산재한 지식을 하나로 엮었다. RLHF는 경제학(선호 이론), 철학(가치 정렬), RL(정책 기울기), NLP(언어 모델)가 뒤얽힌 분야다. 이 교차점을 하나의 일관된 서사로 정리한 참고 자료가 없었다. 이 책이 최초다.

둘째, 코드가 있다. 모든 핵심 알고리즘(보상 모델 학습, PPO, GRPO, DPO, 거부 샘플링)에 PyTorch 구현 예제가 포함되어 있다. 수학 공식 옆에 바로 실행 가능한 코드가 있다.

셋째, 실무적 판단을 포함한다. "보상 모델은 1 에포크만", "DPO 학습률은 놀라울 정도로 낮게", "GRPO의 표준편차 정규화에는 문제가 있다", "SFT는 암기하고 RL은 일반화한다" — 이런 판단은 수십 번의 실험을 직접 해본 사람만 할 수 있다.

218페이지에 400개 이상의 수식, 100개 이상의 참고문헌, 30개 이상의 코드 블록. 그리고 무료. 2026년 3월 현재, AI를 실무적으로 이해하고 싶은 사람에게 이것보다 효율적인 자원은 없다.


책 다운로드: rlhfbook.com (무료 PDF, 218페이지)

저자: Nathan Lambert — AI2 (Allen Institute for AI) 연구자. Zephyr-Beta, Tülu, OLMo 기여자. 블로그: interconnects.ai