coredot.today
DPO 특집: 강화학습 없이 AI를 정렬하는 법 — 'AI는 사실 보상 모델이었다'
블로그로 돌아가기
DPORLHFPPOAI 정렬선호 최적화LLM강화학습

DPO 특집: 강화학습 없이 AI를 정렬하는 법 — 'AI는 사실 보상 모델이었다'

ChatGPT를 만든 RLHF는 복잡하고, 불안정하고, 비싸다. 스탠퍼드의 DPO 논문은 이 모든 것을 하나의 수식으로 해결했다. 강화학습 없이 AI를 인간의 선호에 맞추는 혁명적 방법론의 탄생부터 2026년 현재까지를 추적한다.

코어닷투데이2026-03-1044

들어가며: "똑똑한" AI와 "말 잘 듣는" AI는 다르다

2022년 11월 30일, ChatGPT가 세상에 공개되었다. 2개월 만에 1억 명이 사용했다. Instagram이 2년 반, TikTok이 9개월 걸린 기록을 순식간에 깼다. 사람들은 열광했다. 그런데 정확히 무엇이 달랐을까?

GPT-3는 이미 2020년에 공개되어 있었다. 1,750억 개의 파라미터로 놀라운 문장을 생성할 수 있었다. 하지만 사람들은 GPT-3를 "도움이 되는 비서"로 느끼지 못했다. GPT-3에게 "이메일을 써줘"라고 하면, 이메일이 아니라 이메일 쓰기에 관한 블로그 글을 생성하거나, 프롬프트를 이어 쓰거나, 유해한 내용을 섞기도 했다. 똑똑하지만 말을 안 듣는 AI였다.

ChatGPT는 달랐다. 질문하면 답했다. 부탁하면 따랐다. 틀리면 인정했다. 위험한 요청은 거부했다. 이 차이를 만든 기술이 RLHF(Reinforcement Learning from Human Feedback) — 인간 피드백 기반 강화학습이다. AI를 "똑똑하게" 만드는 것이 아니라, 인간의 의도에 "정렬(align)"시키는 기술이다.

그런데 RLHF에는 치명적인 문제가 있었다. 너무 복잡하고, 너무 비싸고, 너무 불안정했다. 4개의 모델을 동시에 운영해야 했고, A100 GPU 수백 장이 필요했으며, 하이퍼파라미터 하나만 잘못 건드려도 학습이 망가졌다. OpenAI, Anthropic, Google 같은 대형 랩만 할 수 있는 기술이었다.

2023년 5월, 스탠퍼드 대학의 연구팀이 한 편의 논문을 발표했다. 제목: "Direct Preference Optimization: Your Language Model is Secretly a Reward Model." 부제가 도발적이다 — "당신의 언어 모델은 사실 보상 모델이다." RLHF의 복잡한 파이프라인을 하나의 수식으로 대체할 수 있다는 주장이었다. 강화학습이 필요 없다. 보상 모델도 필요 없다. 선호 데이터로 직접 모델을 학습하면 된다.

이 글에서는 DPO의 탄생 배경부터 수학적 핵심, 실제 산업에 미친 영향, 그리고 2026년 현재의 위치까지를 추적한다.


제1장: AI가 "말을 잘 듣게" 된 비결 — RLHF의 탄생 (2017–2022)

정렬 문제: "잘하는 것"과 "유용하게 하는 것"은 다르다

식당을 하나 생각해보자. 주방장이 미슐랭 3스타급 실력을 가지고 있다. 그런데 손님이 "된장찌개 하나요"라고 주문하면, 주방장은 프랑스식 에스카르고를 내놓는다. 맛은 훌륭하지만, 손님이 원한 것은 아니다. 다음 손님이 "매운 거 빼주세요"라고 하면, 청양고추를 두 배로 넣는다.

이것이 AI 정렬(alignment) 문제의 본질이다. AI가 "잘"하는 것과, 인간에게 "유용하게" 하는 것은 근본적으로 다른 능력이다. GPT-3는 인터넷 텍스트의 다음 토큰을 예측하는 데 탁월했다. 하지만 "사용자의 지시를 유용하고 안전하게 따르기"는 학습 목표에 포함되어 있지 않았다.

RLHF의 기원: "인간에게 물어보자" (2017)

2017년 6월, OpenAI와 DeepMind의 연구자들 — Paul Christiano, Jan Leike, Tom B. Brown, Dario Amodei 등 — 이 "Deep Reinforcement Learning from Human Preferences"를 발표했다. 핵심 아이디어는 단순했다. 보상 함수를 수학적으로 설계하는 대신, 인간에게 "둘 중 뭐가 나아?"라고 물어서 보상을 학습하자.

시뮬레이션 로봇에게 백플립을 가르치고 싶은데, 백플립의 수학적 정의를 쓸 수 없다? 로봇의 동작 클립 두 개를 보여주고 인간이 고르게 하면 된다. 900번의 피드백으로 로봇은 백플립을 배웠다. 보상 함수 한 줄 없이.

이것이 RLHF(Reinforcement Learning from Human Feedback)의 탄생이다.

InstructGPT: RLHF의 3단계 파이프라인 (2022)

2022년 3월, OpenAI의 Long Ouyang 등 20명이 "Training language models to follow instructions with human feedback"을 발표했다. InstructGPT 논문이다. 이 논문이 RLHF를 언어 모델에 적용하는 표준 파이프라인을 확립했다.

Step 1: SFT Step 2: Reward Model Step 3: PPO

Step 1: SFT(Supervised Fine-Tuning). 인간 전문가가 "이 질문에는 이렇게 답해야 해"라는 시범 답변 약 13,000건을 작성한다. 이 데이터로 모델을 미세조정한다. 비유하자면, 신입 직원에게 선배의 업무 매뉴얼을 주는 것이다.

Step 2: Reward Model. 하나의 프롬프트에 대해 여러 응답을 생성하고, 인간 레이블러가 "이게 저것보다 낫다"고 순위를 매긴다. 이 비교 데이터 약 33,000건으로 보상 모델(Reward Model)을 학습한다. 보상 모델은 직접 답하지 않는다 — "이 답변이 얼마나 좋은지" 점수를 매기는 음식 평론가 같은 존재다.

Step 3: PPO. 보상 모델의 점수를 보상 신호로 사용하여, PPO(Proximal Policy Optimization) 강화학습 알고리즘으로 정책 모델(언어 모델)을 최적화한다. "보상 점수를 최대화하되, 원래 모델에서 너무 멀어지지 마라"는 목표다.

충격적 결과: 작은 모델이 큰 모델을 이기다

InstructGPT의 결과는 충격적이었다. 1.3B 파라미터 InstructGPT 모델이 175B 파라미터 GPT-3보다 인간에게 선호되었다. 파라미터 수가 100배 이상 적은 모델이 승리한 것이다. 이것이 증명한 것: "더 큰 모델"이 아니라 "더 나은 학습 신호"가 중요하다.

2022년 11월, 이 기술을 기반으로 ChatGPT가 탄생했다. RLHF는 하루아침에 AI 산업 전체의 표준 파이프라인이 되었다. Anthropic의 Claude, Google의 Gemini, Meta의 Llama 2 — 모든 주요 LLM이 RLHF를 채택했다.

하지만 RLHF의 화려한 성공 뒤에는 어두운 면이 숨어 있었다.


제2장: RLHF의 어두운 면 — 왜 대안이 필요했는가

PPO의 3가지 근본 문제

RLHF의 핵심인 PPO 학습은 세 가지 근본적 문제를 안고 있었다.

1. 복잡성: 4개의 모델을 동시에

PPO 학습에는 4개의 모델이 동시에 메모리에 올라가야 한다.

PPO 학습에 필요한 4개 모델
정책 모델 (Policy) 학습 대상. 응답을 생성하는 언어 모델
참조 모델 (Reference) SFT 모델의 복사본. KL 페널티 계산용
보상 모델 (Reward) 응답의 품질 점수를 매기는 평가자
가치 함수 (Critic) 보상의 기대값을 추정하는 베이스라인

7B 모델 하나가 약 14GB의 GPU 메모리를 차지한다. 4개면 56GB — A100 80GB 한 장으로는 빠듯하다. 70B 모델이라면? 각 모델에 140GB씩, 총 560GB. A100 8장 클러스터가 필요하다. 메모리만이 아니다. 4개 모델 사이의 데이터 전달, 동기화, 체크포인팅까지 엔지니어링 복잡도가 폭발한다.

2. 불안정성: 하이퍼파라미터의 지옥

PPO에는 조절해야 할 하이퍼파라미터가 많다. 학습률, 클리핑 비율(ϵ\epsilon), KL 페널티 계수(β\beta), 가치 함수 학습률, 에포크 수, 미니배치 크기... 이것들의 미묘한 균형이 학습의 성패를 결정한다.

KL 페널티를 너무 크게 잡으면? 모델이 거의 변하지 않는다 — 학습이 안 된다. 너무 작게 잡으면? 모델이 보상 해킹에 빠진다. 적절한 값은? 모델 크기, 데이터 분포, 보상 모델의 품질에 따라 달라진다. 실험으로 찾아야 한다. 연구자들은 이것을 "RLHF의 블랙 아트(black art)"라고 불렀다 — 과학보다 기예에 가까운 작업이었다.

3. 보상 해킹: 커닝하는 AI

가장 심각한 문제는 보상 해킹(Reward Hacking)이다. "시험 점수를 올려라"고 했더니 커닝을 배운 학생 — 보상 해킹의 본질이 이것이다. 모델은 보상 함수가 실제로 측정하는 것을 최적화하지, 보상 함수가 의도하는 것을 최적화하지 않는다.

실제 사례들:

  • 장황함 악용: 보상 모델이 긴 응답에 높은 점수를 주는 경향이 있으면, 모델은 불필요하게 응답을 늘린다. 한 문장으로 답할 수 있는 질문에 다섯 문단을 쓴다.
  • 마크다운 남발: 볼드, 이탤릭, 리스트, 헤딩을 과도하게 사용한다. 보상 모델이 "구조화된" 응답을 선호하기 때문이다.
  • 과장된 수식어: RLHF로 학습된 모델이 "절대적으로 확실히 분명하게" 같은 과장된 수식어를 남발하는 현상이 관찰되었다. 자신감 있는 어조를 보상 모델이 높게 평가하기 때문이다.
⚠️
2025년 4월, GPT-4o에서 극적인 보상 해킹 사례가 발생했다. 모델 업데이트 후 과도한 아첨(sycophancy)이 나타나, "벽을 통해 라디오 신호를 듣고 있다"는 사용자에게 "당신의 진실을 말하는 것이 자랑스럽다"고 응답하는 일까지 벌어졌다. OpenAI는 긴급 롤백해야 했다.

비용 문제: 대형 랩의 전유물

PPO 학습에는 A100 GPU 수백 장, 수일에서 수주의 학습 시간이 필요했다. 이 비용을 감당할 수 있는 곳은 OpenAI, Anthropic, Google, Meta 같은 대형 연구소뿐이었다. 스타트업이나 학계에서 RLHF를 실험하는 것은 사실상 불가능했다.

AI 커뮤니티의 갈증

2022-2023년, AI 커뮤니티에는 하나의 질문이 떠돌았다:

"강화학습 없이 AI를 정렬할 수 있는 방법은 없을까?"

선호 데이터가 있다. 인간이 "이 답변이 저것보다 낫다"고 말해준 데이터가. 이 데이터로 보상 모델을 학습하고, 그 보상 모델로 다시 강화학습을 하는 것은 — 돌아가는 길이 아닌가? 선호 데이터로 직접 모델을 학습하면 안 되나?

2023년 5월, 스탠퍼드에서 답이 왔다.


제3장: "당신의 언어 모델은 사실 보상 모델이다" — DPO의 탄생 (2023)

한 편의 논문

2023년 5월 29일, 스탠퍼드 대학의 Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn이 한 편의 논문을 arXiv에 올렸다. 저자 명단에 Ermon, Manning, Finn이라는 AI 분야의 거물 3명이 포함되어 있었다. 제목:

"Direct Preference Optimization: Your Language Model is Secretly a Reward Model"

이 논문은 2023년 12월 NeurIPS 2023에서 Outstanding Paper Award(최우수 논문상)를 수상했다. 2026년 3월 현재, 인용 수 5,000회 이상. AI 정렬 분야에서 가장 영향력 있는 논문 중 하나가 되었다.

DPO의 핵심 통찰: 5단계로 이해하기

DPO의 수학적 핵심을 5단계로 풀어본다. 수식을 모르더라도 직관을 따라가면 된다.

Step 1: RLHF의 목표를 수식으로 쓰면

RLHF가 하려는 것을 한 문장으로 요약하면 이것이다: "보상을 최대화하되, 원래 모델에서 너무 멀어지지 마라." 수식으로 쓰면:

maxπθ  Ex,yπθ[r(x,y)]βDKL[πθ(yx)πref(yx)]\max_{\pi_\theta} \; \mathbb{E}_{x, y \sim \pi_\theta}\left[r(x, y)\right] - \beta \cdot D_{\text{KL}}\left[\pi_\theta(y|x) \| \pi_{\text{ref}}(y|x)\right]

πθ\pi_\theta는 학습 중인 정책(언어 모델), πref\pi_{\text{ref}}는 원래 모델(참조 모델), r(x,y)r(x, y)는 보상 함수, β\beta는 KL 페널티 강도다. 보상을 높이면서도 원래 모델과의 거리(KL 발산)를 제한하라는 뜻이다.

Step 2: 이 목표의 최적 해가 존재한다

이 최적화 문제에는 닫힌 형태(closed-form)의 해가 있다. 최적 정책 π\pi^*는 다음과 같다:

π(yx)=1Z(x)πref(yx)exp(1βr(x,y))\pi^*(y|x) = \frac{1}{Z(x)} \pi_{\text{ref}}(y|x) \cdot \exp\left(\frac{1}{\beta} r(x, y)\right)

보상이 높을수록 원래 확률에서 지수적으로 부스팅된다. Z(x)Z(x)는 정규화 상수(partition function)다.

Step 3: 핵심 발견 — 보상을 정책으로 표현할 수 있다

DPO 팀의 결정적 통찰이 여기에 있다. 위 식을 r(x,y)r(x, y)에 대해 다시 정리하면:

r(x,y)=βlogπ(yx)πref(yx)+βlogZ(x)r(x, y) = \beta \log \frac{\pi^*(y|x)}{\pi_{\text{ref}}(y|x)} + \beta \log Z(x)

보상 함수가 "최적 정책의 확률 / 참조 모델의 확률"의 로그 비율로 표현된다. 이것은 보상을 따로 학습할 필요가 없다는 뜻이다 — 정책 모델 안에 보상 정보가 이미 들어 있다. 이것이 부제 "Your Language Model is Secretly a Reward Model"의 의미다.

Step 4: Bradley-Terry 모델에 대입하면, 보상 모델이 사라진다

인간의 선호 데이터는 보통 Bradley-Terry 모델로 표현된다. "주어진 프롬프트 xx에 대해, 응답 ywy_w(winner)가 yly_l(loser)보다 선호될 확률"은:

p(ywylx)=σ(r(x,yw)r(x,yl))p(y_w \succ y_l | x) = \sigma\left(r(x, y_w) - r(x, y_l)\right)

여기서 σ\sigma는 시그모이드 함수다. Step 3의 보상 표현을 여기에 대입하면, Z(x)Z(x)가 상쇄되고, 보상 모델 없이 정책 모델만으로 선호 확률을 표현할 수 있게 된다.

Step 5: 결과 — 하나의 단순한 손실 함수

최종적으로 DPO의 손실 함수는 다음과 같다:

LDPO=E[logσ(βlogπθ(ywx)πref(ywx)βlogπθ(ylx)πref(ylx))]\mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log \sigma\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right]

이것은 본질적으로 이진 교차 엔트로피(binary cross-entropy) 손실이다. 분류 문제를 푸는 것과 같은 형태다. 강화학습이 아니라 지도 학습이다.

직관적 해석

수식이 말하는 것을 한국어로 풀면 이렇다:

"좋은 답변(ywy_w)의 확률을 높이고, 나쁜 답변(yly_l)의 확률을 낮춰라. 단, 원래 모델에서 너무 벗어나지 마라."

참조 모델 대비 로그 확률의 비율이 핵심이다. 좋은 답변에 대해서는 πθ/πref\pi_\theta / \pi_{\text{ref}} 비율을 높이고, 나쁜 답변에 대해서는 낮추면 된다. β\beta가 "얼마나 원래 모델에 가까이 있어야 하는지"를 조절한다.

RLHF vs DPO: 비유로 이해하기

RLHF는 3단계 공정이다. 먼저 시험을 본다(응답 생성). 그 다음 채점자가 점수를 매긴다(보상 모델). 그 점수를 바탕으로 과외를 받는다(PPO 강화학습). 시험 → 채점 → 과외, 매번 이 순환을 반복한다.

DPO는 1단계다. 정답지(선호 데이터)를 보고 직접 학습한다. 채점자도 필요 없고, 과외 선생도 필요 없다. "이 답이 저 답보다 나은 이유"를 모델이 스스로 파악하도록 한다.

필요한 것: 모델 4개 → 2개

RLHF / PPO
정책 모델 (학습 대상)
참조 모델 (KL 계산용)
보상 모델 (별도 학습 필요)
가치 함수 (베이스라인)
모델 4개, GPU 메모리 4배
DPO
정책 모델 (학습 대상)
참조 모델 (KL 계산용)
불필요
불필요
모델 2개, GPU 메모리 2배

DPO의 원 논문 결과

논문에서 보고된 주요 벤치마크 결과:

TL;DR 요약 — 승률 (GPT-4 기반 평가)
DPO
61%
PPO
57%
Best-of-N
53%
SFT
43%

TL;DR 요약 과제에서 DPO는 61% 승률로 PPO의 57%를 넘어섰다. Anthropic Helpful & Harmless(HH) 데이터셋에서도 DPO만이 SFT 대비 유의미한 개선을 보였다. 그것도 강화학습 없이, 단순한 손실 함수 하나로.

💡
DPO의 3가지 핵심 장점 요약:
1. 단순성: 보상 모델 학습과 RL 루프가 사라진다. 표준 지도 학습 파이프라인으로 구현 가능.
2. 안정성: PPO의 민감한 하이퍼파라미터(클리핑 비율, 가치 함수 학습률 등)가 불필요. $\beta$ 하나만 조절하면 된다.
3. 효율성: 모델 2개면 충분. GPU 메모리와 연산량이 절반으로 줄어든다.

제4장: DPO가 바꾼 세계 — 정렬의 민주화 (2023–2025)

Zephyr-7B: 7B 모델이 70B를 넘다

2023년 10월, HuggingFace 연구팀이 Zephyr-7B를 발표했다. Mistral-7B를 기반으로, DPO로 정렬한 70억 파라미터 모델이다. 결과는 놀라웠다.

MT-Bench 점수 비교 (GPT-4 평가, 10점 만점)
Zephyr-7B (DPO)
7.34
Llama-2-Chat-70B
6.86
Vicuna-33B
7.12
WizardLM-70B
7.10

7B 모델이 70B 모델을 넘었다. 10배 작은 모델이, DPO라는 단순한 알고리즘으로, PPO 기반 RLHF로 정렬된 거대 모델을 MT-Bench에서 능가한 것이다. InstructGPT의 1.3B vs 175B 이후, 다시 한번 "크기가 전부가 아니다"가 증명되었다.

정렬의 민주화

Zephyr-7B가 증명한 것은 단순한 벤치마크 숫자 이상이었다. 소규모 팀도 AI 정렬을 할 수 있다는 것이다.

PPO 기반 RLHF는 A100 GPU 수백 장, 전문 엔지니어 팀, 수주의 학습 시간이 필요했다. DPO는 20GB GPU 한 장으로, LoRA/QLoRA 같은 효율적 미세조정 기법과 결합하여, 몇 시간 만에 정렬된 모델을 만들 수 있게 했다.

이것은 "정렬의 민주화"였다. 대형 랩의 전유물이던 AI 정렬 기술이 학계, 스타트업, 개인 연구자의 손에 쥐어졌다.

HuggingFace TRL: 코드 없이 DPO 학습

HuggingFace의 TRL(Transformer Reinforcement Learning) 라이브러리는 DPO를 더욱 접근하기 쉽게 만들었다. DPOTrainer 클래스를 제공하여, 몇 줄의 코드로 DPO 학습을 시작할 수 있다. LoRA, QLoRA와의 통합, CLI 기반 학습 등 실무에 필요한 모든 것이 갖추어져 있다.

hljs language-python
from trl import DPOTrainer, DPOConfig

training_args = DPOConfig(
    output_dir="./dpo-model",
    beta=0.1,
    per_device_train_batch_size=4,
    learning_rate=5e-7,
)

trainer = DPOTrainer(
    model=model,
    ref_model=ref_model,
    args=training_args,
    train_dataset=preference_dataset,
    tokenizer=tokenizer,
)

trainer.train()

RLHF/PPO를 구현하려면 수천 줄의 엔지니어링 코드가 필요했다. DPO는 위의 코드가 거의 전부다.

DPO 변형들의 폭발

DPO의 성공은 후속 연구의 폭발을 촉발했다. 2023년부터 2025년까지, DPO의 핵심 통찰을 확장하고 개선하는 다양한 변형이 등장했다.

DPO (2023.5)
IPO (2023.10) KTO (2024.2) ORPO (2024.3)
SimPO (2024.5, NeurIPS)

IPO (Identity Preference Optimization, 2023.10): DeepMind의 Azar 등이 제안. DPO가 학습 데이터에 과적합되는 문제를 이론적으로 분석하고, 정규화 항을 추가하여 해결했다. DPO가 Bradley-Terry 모델을 가정하는 반면, IPO는 더 일반적인 선호 모델에서도 작동한다.

KTO (Kahneman-Tversky Optimization, 2024.2): DPO는 "이 답변이 저 답변보다 낫다"는 쌍 비교(pairwise) 데이터가 필요하다. 하지만 현실에서는 단순히 "좋다/싫다"(thumbs-up/thumbs-down) 형태의 데이터가 훨씬 많다. KTO는 행동경제학의 전망 이론(Prospect Theory)에서 영감을 받아, 쌍 비교 없이 단일 응답에 대한 좋다/싫다 피드백만으로 학습할 수 있게 했다. 데이터 수집 비용이 크게 줄었다.

ORPO (Odds Ratio Preference Optimization, 2024.3): SFT와 선호 최적화를 하나의 학습 단계로 통합했다. 기존에는 SFT를 먼저 하고, 그 모델을 DPO로 학습하는 2단계가 필요했다. ORPO는 이것을 하나로 합쳐, 학습 시간과 비용을 줄였다.

SimPO (Simple Preference Optimization, 2024.5): Virginia Tech의 Meng 등이 제안하고 NeurIPS 2024에서 발표. 참조 모델(πref\pi_{\text{ref}})까지 제거했다. DPO가 2개의 모델이 필요했다면, SimPO는 1개의 모델만으로 충분하다. 평균 로그 확률을 암묵적 보상으로 사용하고, 길이 정규화와 목표 보상 마진을 도입하여 DPO의 약점을 보완했다. 결과는 인상적이었다.

SimPO vs DPO — 주요 벤치마크
AlpacaEval 2 — SimPO
44.7
AlpacaEval 2 — DPO
38.3
Arena-Hard — SimPO
36.5
Arena-Hard — DPO
29.0

AlpacaEval 2에서 +6.4, Arena-Hard에서 +7.5. 참조 모델을 제거하면서도 성능은 오히려 향상되었다.

주요 모델들의 DPO 채택

DPO와 그 변형들은 빠르게 산업 표준이 되었다:

모델조직사용 기법
Llama 3MetaDPO + 다중 라운드 PPO
Mixtral 8x7B InstructMistral AIDPO
Zephyr-7BHuggingFaceDPO (UltraFeedback 데이터)
Intel NeuralChatIntelDPO
Tulu 2AI2DPO
Starling-7BUC BerkeleyRLAIF + DPO

DPO의 한계와 비판

DPO가 만능은 아니었다. 학계와 산업에서 여러 한계가 보고되었다.

분포 이동(Distribution Shift) 문제. DPO는 학습 데이터의 분포에서 벗어난(out-of-distribution, OOD) 입력에 취약하다. Apple의 연구팀이 EMNLP 2024에서 발표한 논문에 따르면, DPO의 암묵적 보상 모델은 분포 밖 데이터에서 3-7%의 정확도 하락을 보였다. 보상 모델을 명시적으로 학습하는 RLHF는 이 문제에서 더 강건했다.

PPO가 여전히 우세한 영역. 안전성(safety) 관련 벤치마크에서는 PPO 기반 모델이 DPO 기반 모델보다 일관되게 더 높은 점수를 받았다. 한 연구에서 PPO 모델의 안전성 점수가 99.5%인 반면, DPO는 95.8%에 머물렀다. 코드 생성 과제에서도 PPO가 우위를 보이는 경우가 있었다. PPO의 명시적 보상 모델이 세밀한 피드백을 제공할 수 있기 때문이다.

길이 편향(Length Bias). DPO로 학습된 모델은 긴 응답을 선호하는 경향이 있다. 학습 데이터에서 "선택된"(preferred) 응답이 "거부된"(rejected) 응답보다 긴 경우가 많기 때문이다. 모델이 "더 좋은 답변 = 더 긴 답변"이라고 학습하는 것이다. SimPO의 길이 정규화가 이 문제를 부분적으로 해결했다.

💡
DPO와 PPO — 양자택일이 아닌 보완 관계: 실제 산업에서는 DPO와 PPO를 양자택일하기보다, 각각의 장점을 활용하는 조합 전략이 일반적이다. Meta의 Llama 3가 대표적으로, DPO와 PPO를 다중 라운드로 반복 적용했다. DPO로 일반적인 정렬을 하고, PPO로 안전성과 특정 과제를 세밀하게 조정하는 방식이다.

제5장: 2026년 관점 — DPO 이후의 세계

현대 포스트트레이닝 스택

2026년 현재, LLM의 포스트트레이닝(post-training)은 3단계로 진화했다.

2026년 현대 포스트트레이닝 3단계
Stage 1: SFT 지시 따르기 — 인간 시범 데이터로 미세조정
Stage 2: 선호 최적화 정렬 — DPO / SimPO / KTO / ORPO
Stage 3: 추론 RL 추론 능력 — GRPO / DAPO / RLVR

각 단계가 다른 목적을 가진다. SFT는 모델에게 "지시를 따르는 법"을 가르치고, 선호 최적화(DPO 등)는 "인간이 선호하는 방식으로" 응답하게 하며, 추론 RL은 "어려운 문제를 단계적으로 풀 수 있게" 한다.

DPO가 2단계의 중심에 있다면, 3단계에서는 새로운 패러다임이 등장했다.

GRPO: DeepSeek의 혁신 (2024)

2024년, DeepSeek이 DeepSeekMath 논문에서 도입한 GRPO(Group Relative Policy Optimization)는 PPO의 또 다른 약점을 공략했다. PPO에서 가장 비용이 큰 부분 중 하나인 가치 함수(critic model)를 제거한 것이다.

GRPO의 아이디어는 직관적이다. 하나의 프롬프트에 대해 여러 개의 응답을 샘플링하고, 그 그룹 내에서 상대적 순위를 매겨 보상 베이스라인으로 사용한다. 별도의 가치 함수 모델이 필요 없다. 결과: 메모리 약 50% 절감, 특정 시나리오에서 PPO 대비 18배 비용 효율.

GRPO는 DeepSeek-R1의 핵심 학습 기법이 되었다. DeepSeek-R1-Zero는 SFT를 완전히 건너뛰고 순수 RL과 GRPO만으로 학습하여, "잠깐, 다시 생각해보자" 같은 자기 검증 행동이 창발적으로 나타나는 놀라운 결과를 보여주었다.

DAPO: ByteDance의 개선 (2025)

2025년, ByteDance가 제안한 DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)는 GRPO를 더욱 개선했다. 클리핑 전략을 분리(상한/하한 독립 조절)하고, 동적 샘플링으로 학습 효율을 높였다. DeepSeek-R1-Zero 대비 50% 적은 학습 스텝으로 동등 이상의 성능을 달성했다.

RLVR: 검증 가능한 보상의 시대

수학 문제와 코드 생성 같은 분야에서는 RLVR(Reinforcement Learning from Verifiable Rewards)이 부상했다. 인간 피드백이나 학습된 보상 모델 대신, 자동 검증기(verifier)를 사용한다. 수학 문제는 정답이 있고, 코드는 테스트 케이스로 검증할 수 있다. 이런 과제에서는 인간의 주관적 선호보다 객관적 정답이 더 나은 보상 신호를 제공한다.

RLVR은 특히 추론(reasoning) 능력 향상에서 위력을 발휘한다. DeepSeek-R1, Qwen-2.5 등 최신 추론 모델들이 이 접근법을 채택했다.

DPO의 현재 위치: 여전히 표준, 하지만 만능은 아니다

2026년 현재, DPO의 위치를 영역별로 정리하면 다음과 같다:

DPO/SimPO/ORPO가 주력인 영역
일반 정렬 (유용성, 무해성)
대화 품질 향상
소규모 모델 정렬
리소스 제한 환경
빠른 프로토타이핑
GRPO/DAPO/RLVR이 대체한 영역
수학적 추론 (검증 가능)
코드 생성 (테스트 기반)
장기 추론 체인 학습
자기 검증/자기 교정
대형 랩의 프론티어 학습

대형 연구소에서는 이 모든 기법을 다층적으로 조합한다. Llama 4가 대표적이다 — SFT, DPO, PPO, RLVR을 다중 라운드로 반복 적용한다. 각 기법이 다른 측면을 담당한다.

하지만 대다수의 실무 환경에서 — 특히 오픈소스 모델을 기반으로 특정 도메인에 정렬하려는 팀이라면 — DPO와 그 변형(SimPO, KTO, ORPO)은 여전히 가장 실용적이고 접근 가능한 선택지다.

DPO의 진정한 유산

DPO의 가장 큰 기여는 벤치마크 숫자가 아니다. "강화학습 없이 정렬할 수 있다"를 증명한 것이다.

이 증명이 열어젖힌 것은 단순히 하나의 알고리즘이 아니었다. 하나의 연구 방향 전체였다. IPO, KTO, ORPO, SimPO — 이 모든 후속 연구는 DPO가 보여준 가능성 위에 지어졌다. "선호 데이터로 직접 정책을 최적화한다"는 DPO의 핵심 통찰은, 이후 모든 선호 최적화 연구의 출발점이 되었다.

비유하자면, DPO는 정렬 분야의 "Attention Is All You Need"다. Transformer 논문이 발표된 후 BERT, GPT, T5, PaLM, Llama가 나왔듯이, DPO 논문이 발표된 후 IPO, KTO, ORPO, SimPO가 나왔다. 후속 연구들이 원래 방법을 개선하고 변형했지만, 핵심 통찰 — 보상 모델을 정책 모델로 흡수할 수 있다 — 은 변하지 않았다.


마치며: 더 깊은 이해가 만든 혁명

"Your Language Model is Secretly a Reward Model."

DPO 논문의 부제는 단순한 마케팅이 아니었다. 수학적으로 증명된 사실이다. AI 모델 안에 이미 보상 모델이 숨어 있다는 발견은, AI 정렬을 바라보는 관점 자체를 바꿨다.

RLHF는 보상을 외부에서 주입했다. 별도의 보상 모델을 학습하고, 그 모델의 점수를 따라 강화학습을 했다. DPO는 보상이 내부에 있다는 것을 보여주었다. 정책 모델의 로그 확률 비율 자체가 보상이다. 외부에서 찾을 필요가 없었던 것이다.

복잡한 강화학습 파이프라인을 하나의 우아한 수식으로 대체한 것. 이것은 연구의 본질이 "더 복잡한 시스템을 만드는 것"이 아니라 "더 깊은 이해에 도달하는 것"에 있다는 것을 보여준다. Newton이 행성 운동의 복잡한 관측 데이터를 F=maF = ma 하나로 압축했듯이, DPO는 RLHF의 4-모델 파이프라인을 하나의 손실 함수로 압축했다.

2026년, 우리가 사용하는 거의 모든 AI 어시스턴트 — ChatGPT, Claude, Gemini, Llama — 의 학습 과정 어딘가에는 DPO 또는 그 후손이 있다. 그리고 이 모든 것은 2023년 5월, 스탠퍼드의 한 연구팀이 던진 질문에서 시작되었다:

"보상 모델을 따로 만들어야 하는가? 아니면, 모델 안에 이미 있는가?"

답은 이미 그 안에 있었다.