coredot.today
포스트 트레이닝 혁명 — RLHF에서 SimPO, KTO, ORPO, RLVR까지 완전 정리
블로그로 돌아가기
포스트 트레이닝RLHFDPOSimPOKTOORPORLVRLLM 정렬

포스트 트레이닝 혁명 — RLHF에서 SimPO, KTO, ORPO, RLVR까지 완전 정리

LLM을 똑똑하게 만드는 건 사전 학습이지만, 쓸모 있게 만드는 건 포스트 트레이닝이다. RLHF의 복잡함에서 DPO의 우아함으로, 그리고 SimPO·KTO·ORPO·RLVR까지 — 2026년 AI 정렬 기술의 모든 것.

코어닷투데이2026-01-2929

들어가며

GPT-3가 2020년에 등장했을 때, 이 모델은 놀라운 능력과 동시에 심각한 결함을 보여줬다. 셰익스피어풍 시를 쓸 수 있었지만, "2+3은?"이라고 물으면 "코끼리"라고 답하기도 했다. 유해한 발언을 거침없이 했고, 지시를 따르는 것보다 인터넷 텍스트의 통계적 패턴을 이어가는 것에 더 능숙했다.

문제는 사전 학습(pre-training)에 있지 않았다. GPT-3는 인터넷의 수천억 토큰을 학습해 인간 언어의 거의 모든 패턴을 내재화했다. 문제는 그 지식을 인간이 원하는 방식으로 사용하도록 만드는 것 — 즉, 포스트 트레이닝(post-training)에 있었다.

2022년 InstructGPT가 이 문제를 RLHF로 해결하면서, 포스트 트레이닝은 LLM 개발의 핵심 단계가 됐다. 하지만 RLHF는 복잡하고, 비싸고, 불안정했다. 이후 3년간 연구자들은 더 단순하고, 더 효율적이고, 더 강력한 방법을 쏟아냈다 — DPO, SimPO, KTO, ORPO, 그리고 RLVR까지.

이 글은 포스트 트레이닝의 역사적 기원부터 2026년 최신 기법까지, 각 방법이 등장했고, 어떻게 작동하며, 언제 사용해야 하는지를 완전히 정리한다.


제1장: RLHF — 모든 것의 시작 (2017–2022)

문제의 정의: "인간이 원하는 것"을 어떻게 가르치는가

복잡한 기계와 단순한 기계

사전 학습된 LLM은 "다음 토큰 예측"이라는 단일 목표로 학습된다. 이 목표는 언어의 통계적 구조를 배우는 데는 탁월하지만, "인간에게 도움이 되는 답을 하라"나 "유해한 내용을 생성하지 마라"라는 목표와는 정렬(aligned)되어 있지 않다.

이 격차를 메우는 것이 포스트 트레이닝의 핵심 과제다. 그리고 최초의 체계적 해법이 RLHF(Reinforcement Learning from Human Feedback)였다.

RLHF의 기원

RLHF의 뿌리는 2017년 OpenAI의 Paul Christiano 등이 발표한 논문 "Deep Reinforcement Learning from Human Preferences"에 있다. 아타리 게임과 MuJoCo 로봇 시뮬레이션에서, 인간이 두 개의 행동 영상 중 더 나은 것을 고르는 피드백만으로 복잡한 행동을 학습시킬 수 있음을 보였다.

2019년, Daniel Ziegler 등이 이 아이디어를 언어 모델에 최초 적용했다. 5,000개의 인간 비교 피드백만으로 텍스트 요약의 품질을 크게 향상시켰다.

그리고 2022년 3월, InstructGPT 논문이 모든 것을 바꿨다.

InstructGPT의 3단계 파이프라인

OpenAI의 InstructGPT(Ouyang et al., 2022)가 확립한 RLHF 파이프라인은 세 단계로 구성된다.

1단계: SFT (지도 미세조정)

13,000개의 시범 데이터로 기본 모델을 미세조정한다. 인간 라벨러가 직접 작성한 고품질 응답을 따라하도록 모델을 학습시킨다. 이것만으로도 모델이 지시를 "이해하기 시작"한다.

2단계: 보상 모델 (RM) 학습

33,000개의 비교 데이터를 사용한다. 같은 프롬프트에 대해 모델이 여러 응답을 생성하면, 인간 라벨러가 "A가 B보다 낫다"는 순위를 매긴다. 이 순위로부터 보상 모델을 학습한다.

3단계: PPO (강화학습 최적화)

31,000개의 프롬프트로, 모델이 응답을 생성하면 보상 모델이 점수를 매기고, PPO 알고리즘이 높은 점수를 받는 방향으로 모델을 업데이트한다. KL 페널티로 원래 모델에서 너무 멀어지지 않게 제한한다.

결과는 극적이었다. 13억 파라미터의 InstructGPT가 1,750억 파라미터의 GPT-3보다 인간 평가에서 더 선호됐다. 파라미터 수를 100분의 1로 줄이고도 더 좋은 모델을 만든 것이다. ChatGPT의 폭발적 성공도 이 RLHF 파이프라인 위에 세워졌다.

RLHF의 치명적 약점들

하지만 RLHF에는 심각한 실무적 문제들이 있었다.

1. 메모리 폭발. PPO 단계에서 4개의 모델을 동시에 GPU 메모리에 올려야 한다 — 정책 모델, 가치 모델(critic), 보상 모델, 참조 모델. 대형 모델에서는 이것만으로도 수십 대의 GPU가 필요하다.

2. PPO의 불안정성. PPO는 하이퍼파라미터에 극도로 민감하다. 학습률, KL 계수, 보상 스케일링을 조금만 잘못 맞춰도 학습이 발산하거나 의미 없는 텍스트를 생성한다. "LLM의 거대한 시행착오 비용 때문에 연구자들이 RLHF 단계에 진입하는 것을 두려워한다"라는 2023년 논문의 서술이 현장의 분위기를 보여준다.

3. 보상 해킹(Reward Hacking). 모델이 실제로 좋은 답을 내는 것이 아니라, 보상 모델의 약점을 악용해 높은 점수만 받는 법을 학습한다. 예를 들어, 단순히 답을 길게 쓰면 보상이 높아지는 편향을 이용하는 것이다.

4. 비용 장벽. 전체 파이프라인을 운영하려면 대규모 컴퓨트 클러스터와 전문 인력이 필요하다. 사실상 OpenAI, Google, Anthropic 같은 대형 연구소만 가능한 작업이었다.

요약하면: RLHF는 효과적이지만, 너무 복잡하고, 너무 비싸고, 너무 불안정했다.


제2장: DPO — "보상 모델이 필요 없다면?" (2023)

한 편의 논문이 바꿔놓은 풍경

2023년 5월, 스탠퍼드의 Rafael Rafailov 등 6명이 발표한 논문의 제목은 도발적이었다:

"Direct Preference Optimization: Your Language Model Is Secretly a Reward Model" (직접 선호도 최적화: 당신의 언어 모델은 사실 보상 모델이다)

DPO의 핵심 통찰은 수학적으로 우아하다. RLHF의 복잡한 3단계 파이프라인에서, 보상 모델 학습과 PPO 최적화를 하나의 간단한 손실 함수로 대체할 수 있다는 것이다.

DPO의 수학적 아이디어 (직관적 설명)

RLHF에서 보상 모델이 하는 일을 생각해보자. 보상 모델은 "이 응답이 얼마나 좋은가"라는 점수를 매긴다. DPO의 발견은, 이 점수를 별도의 모델을 학습하지 않고도, 정책 모델(=언어 모델) 자체에서 추출할 수 있다는 것이다.

구체적으로, 최적의 정책 하에서 보상은 다음과 같이 표현된다:

r(x,y)=βlogπθ(yx)πref(yx)+상수r^{\star}(x, y) = \beta \cdot \log\frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)} + \text{상수}

즉, 현재 모델이 어떤 응답을 참조 모델보다 얼마나 더 선호하는가가 곧 그 응답의 "보상"이다. 이것을 선호도 비교 프레임워크에 대입하면, "상수" 부분이 상쇄되면서 단순한 이진 교차 엔트로피 손실이 된다.

DPO 손실 함수:

LDPO=E[logσ(β(logπθ(ywx)πref(ywx)logπθ(ylx)πref(ylx)))]\mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log \sigma\left(\beta \cdot \left(\log\frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \log\frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right)\right]

여기서 ywy_w은 선호되는(winning) 응답, yly_l은 기각된(losing) 응답이다.

RLHF에서 DPO로: 무엇이 사라졌는가

RLHF vs DPO — 파이프라인 비교
RLHF (3단계) SFT → 보상 모델 학습 → PPO 최적화
GPU 메모리: 모델 4개 동시 로드
하이퍼파라미터 민감, 학습 불안정
DPO (1단계) SFT → 직접 선호도 최적화 (끝)
GPU 메모리: 모델 2개 (정책 + 참조)
이진 교차 엔트로피 — 안정적

사라진 것: 보상 모델, 가치 모델(critic), PPO 알고리즘, 보상 해킹 위험

남은 것: 선호도 데이터(A가 B보다 낫다)와 참조 모델

DPO의 영향과 한계

DPO는 오픈소스 커뮮니티에서 폭발적으로 채택됐다. HuggingFace의 Zephyr 7B(2023년 11월)가 DPO로 학습되어 Llama-2-70B(10배 큰 모델)을 이긴 것이 상징적 사건이었다. Meta의 Llama 3도 포스트 트레이닝에 DPO를 활용했다.

하지만 DPO에도 한계가 있었다:

  1. 참조 모델 필요 — 학습 중 참조 모델을 메모리에 유지해야 함
  2. 길이 편향 — 긴 응답에 높은 보상을 부여하는 경향
  3. 오프라인 데이터 한계 — 정적 선호도 데이터에 과적합하기 쉬움
  4. 쌍 데이터 필요 — 같은 프롬프트에 대한 "선호/비선호" 쌍이 필수

이 한계들이 SimPO, KTO, ORPO의 출발점이 됐다.


제3장: 차세대 정렬 기법들 — SimPO, KTO, ORPO

SimPO: 참조 모델도 버려라 (2024)

네 로봇 히어로 팀

"SimPO: Simple Preference Optimization with a Reference-Free Reward" — Princeton NLP의 Yu Meng, Mengzhou Xia, Danqi Chen이 2024년 5월 발표. NeurIPS 2024.

SimPO의 핵심 혁신 두 가지:

1. 참조 모델 제거. DPO는 "현재 모델과 참조 모델의 차이"를 보상으로 사용하지만, SimPO는 현재 모델의 평균 로그 확률 자체를 보상으로 사용한다. 참조 모델이 필요 없으니 메모리가 절반으로 줄어든다.

2. 길이 정규화. DPO의 길이 편향을 해결하기 위해, 전체 시퀀스의 로그 확률을 토큰 수로 나눈 평균을 사용한다. 긴 답이 불공정하게 유리해지는 문제가 사라진다.

LSimPO=logσ(βywlogπθ(ywx)βyllogπθ(ylx)γ)\mathcal{L}_{\text{SimPO}} = -\log\sigma\left(\frac{\beta}{|y_w|}\log\pi_\theta(y_w|x) - \frac{\beta}{|y_l|}\log\pi_\theta(y_l|x) - \gamma\right)

γ\gamma목표 보상 마진 — 선호 응답과 비선호 응답 사이에 최소 이만큼의 차이를 두라는 명시적 목표다.

결과: AlpacaEval 2에서 DPO 대비 +6.4포인트, Arena-Hard에서 +7.5포인트 향상. 10B 미만 모델 중 Chatbot Arena 1위.

KTO: 쌍 데이터도 필요 없다 (2024)

"KTO: Model Alignment as Prospect Theoretic Optimization" — Stanford/Contextual AI의 Kawin Ethayarajh 등. 2024년 2월 발표. ICML 2024.

KTO는 더 근본적인 질문을 던진다: "왜 반드시 쌍 비교(A가 B보다 낫다) 데이터가 필요한가? 단순히 '이건 좋다/나쁘다'라는 이진 피드백만으로 안 되나?"

현실에서 쌍 비교 데이터는 수집하기 어렵다. 같은 프롬프트에 대해 두 개의 다른 응답을 생성하고, 인간이 비교해야 한다. 반면 이진 피드백 — 사용자가 엄지를 올리거나 내리는 것 — 은 모든 챗봇 상호작용에서 자연스럽게 수집된다. 훨씬 풍부하고 저렴한 데이터다.

KTO의 이론적 기반은 카너먼과 트버스키의 전망 이론(Prospect Theory)이다 — 인간은 이득보다 손실에 더 민감하게 반응한다는 행동경제학의 핵심 발견. KTO의 손실 함수는 이 비대칭성을 반영한다: 나쁜 응답에 대한 페널티를 좋은 응답에 대한 보상보다 크게 설정한다.

KTO의 핵심 — 왜 이진 피드백이면 충분한가
DPO에 필요한 데이터 프롬프트 X에 대해 응답 A와 B를 생성
인간이 "A > B"라고 순위 매김
쌍 비교 데이터 (수집 어렵고 비쌈)
KTO에 필요한 데이터 프롬프트 X에 대해 응답 A를 생성
인간이 "👍" 또는 "👎"
이진 피드백 데이터 (모든 챗봇 사용에서 자연 수집)

결과: 1B~30B 규모에서 DPO와 동등하거나 우수. 바람직한 예시의 90%를 줄여도 DPO 성능과 매칭.

ORPO: SFT와 정렬을 한 번에 (2024)

"ORPO: Monolithic Preference Optimization without Reference Model" — KAIST의 Jiwoo Hong, Noah Lee, James Thorne. 2024년 3월 발표. EMNLP 2024.

ORPO는 더 급진적인 단순화를 시도한다: SFT와 선호도 정렬을 하나의 학습 단계로 합친다.

기존에는 SFT를 먼저 하고, 그 다음 DPO/SimPO/KTO를 적용하는 2단계가 필요했다. ORPO는 SFT 손실(다음 토큰 예측)에 오즈비(odds ratio) 페널티를 더해, 모델이 지시를 따르는 것과 좋은 응답을 선호하는 것을 동시에 학습한다.

기존: SFT DPO/SimPO/KTO 완료 (2단계)
ORPO: SFT + 정렬 동시 완료 (1단계)

핵심 인사이트: "비선호 응답에 대한 작은 페널티만으로도 선호도 정렬에 충분하다." 거대한 기계가 필요한 것이 아니라, SFT 과정에 작은 장치 하나를 추가하는 것이다.

결과: Phi-2(2.7B), Llama-2(7B), Mistral(7B) 모델에서 기존 7B~13B 최고 성능 모델을 능가.

세 방법의 비교

특성SimPOKTOORPO
참조 모델불필요필요불필요
데이터 형태쌍 비교이진 피드백쌍 비교
SFT 별도필요필요불필요 (통합)
길이 편향해결 (정규화)부분적부분적
핵심 강점가장 높은 성능데이터 유연성가장 단순한 파이프라인
발표NeurIPS 2024ICML 2024EMNLP 2024

제4장: RLVR — 검증 가능한 보상으로의 회귀 (2025)

DeepSeek-R1이 보여준 것

2025년 1월, DeepSeek이 발표한 DeepSeek-R1은 포스트 트레이닝 패러다임을 다시 한번 뒤집었다. R1은 수학 올림피아드(AIME 2024)에서 79.8%, MATH-500에서 97.3%를 기록하며 OpenAI o1과 동등한 성능을 보였다 — 공개된 코드와 논문과 함께.

R1의 핵심 혁신은 RLVR(Reinforcement Learning with Verifiable Rewards)이다. 학습된 보상 모델 대신, 규칙 기반 검증 도구가 보상을 제공한다.

RLHF vs RLVR — 보상의 원천
RLHF 인간 피드백 → 보상 모델(신경망) → 보상 점수
보상 모델이 틀릴 수 있음 (보상 해킹)
RLVR 모델 응답 → 검증 도구(규칙 기반) → 맞음/틀림
검증이 정확함 (해킹 불가능)

검증 가능한 보상이란?

수학 문제의 경우: 모델이 "답은 42입니다"라고 하면, 계산기로 정답과 대조해 맞으면 보상 1, 틀리면 보상 0.

코드 생성의 경우: 모델이 함수를 작성하면, 컴파일러와 단위 테스트를 실행해 통과하면 보상 1, 실패하면 보상 0.

핵심은 보상이 "학습된 모델의 의견"이 아니라 "객관적 사실"이라는 점이다. 계산기는 거짓말하지 않는다. 컴파일러는 정치적이지 않다. 이것이 보상 해킹을 원천적으로 방지한다.

R1-Zero: 순수 RL만으로 추론이 출현한다

DeepSeek의 가장 놀라운 발견은 R1-Zero 실험이다. SFT 없이, 오직 검증 가능한 보상을 사용한 순수 RL만으로 기본 모델을 학습시켰다. 인간이 만든 추론 사례를 한 번도 보여주지 않았는데도, 모델은 스스로:

  • 자기 검증 — "잠깐, 이 계산을 다시 확인해보자"
  • 전략 전환 — "이 접근법이 안 되니 다른 방법을 시도하자"
  • 유레카 순간 — "아, 여기서 핵심은 이것이구나!"

이런 행동들이 자발적으로 출현했다. RLVR은 "어떻게 생각하라"를 가르치지 않았다. 단지 "정답을 맞혀라"는 신호만 줬을 뿐인데, 모델이 스스로 효과적인 추론 전략을 발견한 것이다.

GRPO: PPO의 간소화 버전

R1은 PPO 대신 GRPO(Group Relative Policy Optimization)를 사용한다. DeepSeekMath(2024년 2월)에서 처음 제안된 GRPO는 PPO에서 가치 모델(critic)을 완전히 제거한다.

작동 방식:

  1. 하나의 프롬프트에 대해 여러 개의 응답(예: 16개)을 샘플링
  2. 각 응답의 보상을 검증 도구로 계산
  3. 그룹 내 상대 순위로 어드밴티지(advantage)를 추정 (보상을 그룹 평균으로 정규화)
  4. 정책을 업데이트

가치 모델이 없으니 메모리가 크게 줄어들고, 학습이 더 안정적이다. 2025년 3월 ByteDance에서 발표한 DAPO는 GRPO를 더 개선해, Qwen2.5-32B로 AIME 2024에서 50점(DeepSeek-R1-Zero와 동등)을 달성하면서 학습 스텝을 50% 절감했다.


제5장: 전체 지도 — 2026년 포스트 트레이닝 생태계

타임라인으로 보는 진화

RLHF (2017) InstructGPT (2022) DPO (2023)
SimPO · KTO · ORPO (2024) RLVR · GRPO · DAPO (2025)

어떤 상황에서 어떤 방법을?

2026년 포스트 트레이닝 방법 선택 가이드
수학/코드 추론 강화가 목표라면 RLVR + GRPO (또는 DAPO)
검증 가능한 보상이 존재하는 영역에서 최강. DeepSeek-R1 방식.
일반적인 대화/도움 능력 정렬이 목표라면 SimPO (쌍 데이터 있을 때) 또는 KTO (이진 피드백만 있을 때)
참조 모델 부담이 적고 성능 우수. HuggingFace TRL로 쉽게 구현.
가장 단순한 파이프라인이 필요하다면 ORPO
SFT + 정렬을 한 단계로. 컴퓨트 예산이 제한적일 때 최적.

2026년 프로덕션의 현실: 하이브리드 파이프라인

실무에서 대부분의 프론티어 모델은 단일 방법이 아니라 여러 방법을 조합한다. 2026년의 전형적인 포스트 트레이닝 파이프라인:

1단계: SFT

1~10M개의 큐레이션된 지시-응답 쌍으로 미세조정. 모델이 지시를 따르는 기본 형태를 학습.

2단계: 선호도 최적화

DPO/SimPO/KTO로 일반적인 정렬. "도움이 되고, 안전하고, 정직한" 방향으로 정렬.

3단계: 추론 강화학습

GRPO/DAPO + 검증 가능한 보상으로 수학, 코드, 과학 추론 능력 강화.

열린 질문들

2026년에도 풀리지 않은 질문들이 있다:

  1. RLVR이 새로운 추론을 가르치는가, 기존 능력을 끌어내는 것인가? R1-Zero의 "유레카 순간"이 진짜 새로운 능력의 출현인지, 사전 학습에서 이미 배운 패턴의 효율적 활용인지 논쟁 중이다.

  2. 검증 불가능한 영역으로의 확장. 수학과 코드는 정답 검증이 쉽다. 하지만 에세이 작성, 상담, 창작에서 "올바른 답"을 어떻게 정의하는가? Soft scoring 접근이 연구되고 있지만 초기 단계다.

  3. 규모 확장(scale)의 효과. 작은 모델에서 효과적인 방법이 대형 모델에서도 동일하게 작동하는가? KTO의 저자들도 대규모에서의 하이퍼파라미터 민감성을 보고했다.


마치며

포스트 트레이닝의 역사는 단순화의 역사다.

RLHF(2017-2022)는 4개의 모델과 3단계 파이프라인이 필요했다. DPO(2023)가 이것을 2개의 모델과 1단계로 줄였다. SimPO(2024)는 참조 모델도 제거했다. ORPO(2024)는 SFT와 정렬을 합쳤다. KTO(2024)는 쌍 데이터도 불필요하게 만들었다.

동시에 RLVR(2025)은 다른 방향에서 돌파구를 열었다. 학습된 보상 모델을 규칙 기반 검증으로 대체해, 보상 해킹을 원천 차단하면서 AI의 추론 능력이 자발적으로 출현할 수 있는 환경을 만들었다.

이 모든 진화의 밑바탕에 있는 질문은 하나다:

"AI에게 인간이 원하는 것을 가르치는 가장 효율적인 방법은 무엇인가?"

2026년의 답은 아직 완전하지 않다. 하지만 방향은 분명하다. 더 적은 데이터로, 더 적은 컴퓨트로, 더 정확한 신호로, AI를 인간의 의도에 정렬시키는 것. 그리고 그 과정에서 AI가 스스로 새로운 능력을 발견하도록 하는 것.

포스트 트레이닝은 더 이상 "사전 학습의 부록"이 아니다. AI의 실질적 능력이 결정되는 핵심 전장이다.


참고 논문:

  • Christiano, P. et al. (2017). "Deep RL from Human Preferences." NeurIPS 2017. arXiv:1706.03741.
  • Ouyang, L. et al. (2022). "Training language models to follow instructions with human feedback." NeurIPS 2022. arXiv:2203.02155.
  • Rafailov, R. et al. (2023). "Direct Preference Optimization." NeurIPS 2023. arXiv:2305.18290.
  • Meng, Y. et al. (2024). "SimPO: Simple Preference Optimization with a Reference-Free Reward." NeurIPS 2024. arXiv:2405.14734.
  • Ethayarajh, K. et al. (2024). "KTO: Model Alignment as Prospect Theoretic Optimization." ICML 2024. arXiv:2402.01306.
  • Hong, J. et al. (2024). "ORPO: Monolithic Preference Optimization without Reference Model." EMNLP 2024. arXiv:2403.07691.
  • DeepSeek-AI (2025). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL." Nature 645. arXiv:2501.12948.
  • Yu, Q. et al. (2025). "DAPO: An Open-Source LLM RL System at Scale." NeurIPS 2025. arXiv:2503.14476.