
모든 길은 우도(Likelihood)로 통한다 — RLHF는 왜 DPO를 이기는가
정보이론적으로 RLHF는 DPO보다 나을 수 없다. 그런데 실제로는 항상 이긴다. CMU와 코넬의 연구팀이 밝혀낸 그 이유는, 컴퓨터 과학의 가장 유명한 난제 P≠NP와 연결되어 있었다.

정보이론적으로 RLHF는 DPO보다 나을 수 없다. 그런데 실제로는 항상 이긴다. CMU와 코넬의 연구팀이 밝혀낸 그 이유는, 컴퓨터 과학의 가장 유명한 난제 P≠NP와 연결되어 있었다.
AI를 인간의 선호에 맞추는 방법은 크게 두 가지다.
방법 A (온라인, RLHF): 먼저 "좋은 답변이 뭔지" 판단하는 보상 모델(Reward Model)을 학습한다. 그 다음, 이 보상 모델의 점수를 최대화하도록 강화학습(RL)으로 언어 모델을 훈련한다. 2단계 파이프라인이다.
방법 B (오프라인, DPO): 보상 모델 따위 필요 없다. 선호 데이터에서 직접 언어 모델의 파라미터를 최적화한다. 1단계면 끝이다.
상식적으로 생각하면, 방법 B가 더 효율적이어야 한다. 중간 단계를 건너뛰니까. 정보이론의 데이터 처리 부등식(Data Processing Inequality)도 같은 말을 한다 — "보상 모델을 거치면 정보를 잃을 수밖에 없고, 온라인 샘플링으로 새로운 정보를 만들어낼 수는 없다."
그런데 현실은 정반대다. GPT-4, Claude, Llama, Gemini — 2026년 현재 세계에서 가장 강력한 모델들은 모두 방법 A를 쓴다. 학계, 산업계, 오픈소스 비교 실험 어디에서든, 복잡한 2단계 온라인 방식이 간단한 오프라인 방식을 일관되게 이긴다.
이론이 틀린 건가? 현실이 틀린 건가?
2025년 3월, 카네기 멜론 대학교(CMU)와 코넬 대학교의 연구팀 — Gokul Swamy, Sanjiban Choudhury, Wen Sun, Zhiwei Steven Wu, J. Andrew Bagnell — 이 이 미스터리에 대한 답을 내놓았다. 논문 제목: "All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning."
답은 놀랍게도 컴퓨터 과학의 가장 유명한 난제, P ≠ NP와 연결되어 있었다.
이 논문을 이해하려면 먼저 두 진영의 역사를 알아야 한다.
2017년, OpenAI와 DeepMind의 Paul Christiano 등이 "인간 피드백으로 강화학습하기(RLHF)"를 제안했다. 2022년, InstructGPT가 이를 언어 모델에 적용하는 표준 파이프라인을 확립했다.
Step 1에서 시범 답변으로 모델을 미세조정하고, Step 2에서 "어떤 답변이 더 나은가"를 판별하는 보상 모델을 학습한 다음, Step 3에서 PPO 같은 강화학습으로 모델을 최적화한다. 4개의 모델(정책, 참조, 보상, 가치)을 동시에 굴려야 해서 GPU 비용이 막대하고, 학습이 불안정하다.
2023년 5월, 스탠퍼드의 Rafael Rafailov 등이 DPO(Direct Preference Optimization)를 발표했다. 핵심 통찰은 수학적으로 우아했다 — "언어 모델 자체가 암묵적으로 보상 모델이다." 보상 모델을 별도로 학습할 필요 없이, 선호 데이터로 직접 분류 문제를 풀면 된다는 것이다.
DPO는 AI 정렬을 민주화했다. GPU 수백 장이 필요하던 RLHF를 단일 GPU에서도 돌릴 수 있게 만들었다. Zephyr, Tülu, Neural Chat 같은 오픈소스 모델들이 DPO로 정렬되어 쏟아져 나왔다.
DPO의 이론적 우아함에도 불구하고, 대규모 벤치마크에서는 항상 같은 결과가 나왔다.
오프라인 DPO에 데이터를 2배로 줘도(52.2%), 온라인 방식(59.3%)을 따라잡지 못한다. HuggingFace의 대규모 비교, 학계 실험, 산업계 보고서 — 어디에서든 결과는 같았다. 온라인이 오프라인을 이긴다. OpenAI의 o1, DeepSeek의 R1 같은 추론 특화 모델들도 여전히 온라인 RL로 훈련된다.
이 미스터리가 바로 이 논문의 출발점이다.
논문의 첫 번째 기여는 아이러니하게도 "이론적으로 온라인과 오프라인은 같다"는 증명이다. 왜 같은데 다른 결과가 나오는지를 이해하려면, 먼저 왜 같아야 하는지를 정확히 알아야 한다.
핵심은 정책(policy)과 보상 모델(reward model) 사이의 수학적 동형(isomorphism)이다. 비유로 설명하자면:
셰프(정책)가 레시피의 각 단계에서 재료를 선택하는 확률을 가지고 있다고 하자. 이 확률들의 로그 합은 자연스럽게 "이 요리가 얼마나 좋은가"라는 점수(보상)가 된다. 즉, 셰프의 레시피 자체가 곧 암묵적인 음식 점수표다.
수학적으로, 정책 가 생성하는 토큰 확률의 로그 합이 곧 로컬 보상 모델이 된다:
이것은 DPO의 핵심 통찰이기도 하다. 정책 클래스 와 로컬 보상 모델 클래스 는 동형(isomorphic) — 일대일 대응 관계에 있다.
논문은 이 동형 관계를 이용해 핵심 정리를 증명한다.
정리 2.2. 보상 모델 클래스와 정책 클래스가 동형()이면, RLHF가 반환하는 정책과 오프라인 MLE(= DPO)가 반환하는 정책은 동일하다.
직관적으로: 같은 함수 공간에서 같은 데이터를 최적화하면, 도달 경로가 달라도 결과는 같다. 부산에서 서울 가는데 KTX를 타든 비행기를 타든 도착지는 같다.
정리 2.3. 같은 조건에서, RLHF = DPO이다.
이것이 바로 논문 제목 "모든 길은 우도로 통한다"의 의미다. 이론적으로, 어떤 경로(온라인이든 오프라인이든)를 택해도 결국 같은 우도(likelihood) 최적해에 도달한다.
그러면 왜 현실에서는 다른 결과가 나오는가? 이 정리의 핵심 가정 — "보상 모델 클래스와 정책 클래스가 동형" — 이 현실에서 깨지기 때문이다.
논문 팀은 치밀한 실험을 설계하여 온라인-오프라인 격차의 원인 후보를 하나씩 검증했다. 과학적 방법론의 교과서적 적용이다 — 가설을 세우고, 하나씩 반증(falsify)을 시도한다.
가설: 모델이 직접 생성한 온라인 샘플에 오프라인 데이터에는 없는 특별한 정보가 담겨 있을 것이다.
반증: 데이터 처리 부등식(Data Processing Inequality)에 의해, 보상 모델에는 원래 선호 데이터에 있던 정보만 있다. 온라인 샘플링으로 새로운 정보를 만들어내는 것은 정보이론적으로 불가능하다. 보상 모델이라는 병목을 거치면 정보는 줄어들기만 할 뿐이다.
가설: DPO가 참조 정책()으로의 정규화를 제대로 못해서 성능이 떨어지는 것이다.
반증: 역 KL 페널티를 DPO에 추가해도 격차가 완전히 닫히지 않는다. 게다가 정규화가 아예 없는 SimPO도 좋은 성능을 보인다. 실험에서는 온라인/오프라인 모두 동일한 정규화를 사용했는데도 격차가 존재했다.
가설: 온라인 데이터가 최적화 지형(loss landscape)을 부드럽게 만들어서 수렴이 잘 되는 것이다.
반증: 온라인/오프라인 모두 동일한 DPO 손실 함수를 사용했다. 유일한 차이는 데이터뿐이다. 프롬프트를 SFT 데이터셋으로 3배 늘려봐도(프롬프트 증강) 성능 향상은 미미했다 (56.1% → 56.6%).
가설: 글로벌 보상 모델은 선호 데이터 외에 추가 데이터도 활용할 수 있어서 유리한 것이다.
반증: SFT 정책이 생성한 샘플만 사용하고, GPT-4o가 라벨링한 좁은 선호 데이터셋으로 실험해도 온라인 방식이 여전히 승리했다. (DPO 56.8% → 온라인 DPO 65.2%)
가설: 글로벌 보상 모델이 학습 데이터 밖의 새로운 데이터에서도 더 잘 작동하기 때문이다.
반증: 실험 결과, 글로벌 보상 모델이 실제로 검증 데이터에서 더 높은 우도(likelihood)를 보이긴 한다. 하지만 이것은 원인이 아니라 결과다 — 왜 글로벌 보상 모델이 더 잘 일반화하는지를 설명해야 한다.
다섯 용의자 모두 알리바이가 있었다. 진범은 따로 있다.
여기서 잠깐 컴퓨터 과학의 오래된 이야기를 하자.
스도쿠 퍼즐을 떠올려 보라. 9×9 빈칸을 규칙에 맞게 채우는 데는 수십 분이 걸릴 수 있다. 하지만 누군가가 완성한 스도쿠가 맞는지 확인하는 데는? 한 줄씩 훑어보면 30초면 된다.
이것이 바로 생성-검증 격차(Generation-Verification Gap)다. 답을 만드는 것(생성)은 어렵지만, 답이 맞는지 확인하는 것(검증)은 쉽다.
이 관찰은 컴퓨터 과학에서 가장 유명한 미해결 문제인 P ≠ NP 추측의 핵심이다. 1956년 쿠르트 괴델이 존 폰 노이만에게 보낸 편지에서 처음 제기된 이 질문은 이렇게 요약된다:
"효율적으로 검증할 수 있는 모든 문제는 효율적으로 풀 수도 있는가?"
대부분의 컴퓨터 과학자들은 "아니오"라고 믿는다. 검증이 생성보다 근본적으로 쉬운 문제들이 존재한다는 것이다. 그리고 이 논문의 핵심 주장은, AI 파인튜닝이 바로 그런 문제라는 것이다.
논문이 제시하고 반증에 실패한(= 살아남은) 유일한 가설이다.
H6 (생성-검증 격차 가설): 파인튜닝 문제에서 보상 함수(검증기)는 최적 정책(생성기)보다 근본적으로 단순한 객체다. 따라서:
- 1단계: 상대적으로 단순한 보상 모델을 선호 데이터에서 학습하기가 비교적 쉽다.
- 2단계: RL은 이 단순한 보상 모델에 대해 최적인 정책만을 탐색한다.
- 결과: 종합적으로, RLHF는 전체 정책 공간 대신 단순한 검증기에 최적인 정책의 부분집합 만 탐색하면 되므로, 더 적은 데이터로도 좋은 정책을 찾는다.
비유로 설명하면 이렇다.
대학 입학시험 비유. 수능 문제를 출제하는 것은 엄청나게 어렵다 — 교육과정 전체를 이해하고, 난이도를 조절하고, 오답률을 예측해야 한다. 하지만 수능 문제를 채점하는 것은? 답안지와 대조하면 끝이다. 이제 두 가지 교육 방법을 비교해보자:
- 방법 A (RLHF): 먼저 채점 기준(보상 모델)을 학습한다. 그 다음, 학생이 직접 답을 써보고, 채점 기준으로 피드백을 받으며 실력을 키운다.
- 방법 B (DPO): 기출문제의 정답/오답 쌍을 보고 직접 "어떻게 답해야 하는지"를 학습한다.
방법 A가 더 효율적인 이유는? 채점 기준은 단순해서 적은 데이터로도 정확히 학습되고, 학생은 이 정확한 피드백을 받아 자기 실력에 맞는 방식으로 개선할 수 있기 때문이다.
논문은 더 직관적인 비유를 제시한다. 출구가 하나인 미로를 생각하자.
보상 함수는 "출구 좌표" 하나로 표현되지만, Q-함수는 미로 전체의 경로 지도를 표현해야 한다. 같은 정보를 담고 있지만, 표현의 복잡도가 근본적으로 다르다.
오프라인 방법(DPO)은 이 복잡한 Q-함수를 데이터에서 직접 학습해야 한다. 온라인 방법(RLHF)은 단순한 보상 함수만 학습하고, 복잡한 경로 찾기는 RL에게 계산으로 시킨다.
핵심: 온라인 RLHF는 데이터를 계산으로 대체한다. 단순한 보상 모델은 적은 데이터로 정확히 학습되고, 복잡한 정책은 RL의 계산력으로 찾아낸다.
논문은 가설 6을 반증하기 위해 격차 자체를 제거하는 실험을 설계했다. 생성과 검증의 어려움이 같아지면, 온라인의 이점도 사라져야 한다.
생성 길이를 단 2단어로 줄였다. 2단어짜리 요약을 생성하는 것은, 2단어짜리 요약이 좋은지 판단하는 것과 비슷한 난이도다 (둘 다 쉽다). 즉, 생성-검증 격차가 거의 없다.
격차가 사실상 사라졌다. ~1%p 차이는 통계적으로 무의미하다. 생성이 쉬워지니, 온라인의 이점도 없어진 것이다.
반대 방향으로도 실험했다. 보상 함수로 ROUGE-L 점수를 사용했다. ROUGE-L은 참조 요약과의 단어 겹침을 측정하는데, 이를 계산하려면 참조 요약 전체를 조회해야 한다. 즉, 검증이 생성만큼 복잡해진다.
다시 한번, 격차가 사라졌다. 검증이 생성만큼 어려워지니, 온라인의 이점이 증발했다.
가설 6이 맞다면, 보상 모델은 정책보다 단순해야 하므로, 정책보다 훨씬 작은 보상 모델로도 충분해야 한다. 실험 결과, 정책의 절반 크기인 보상 모델을 사용해도 Best-of-N 성능이 거의 동일했다. 반대로, 정책보다 훨씬 큰 보상 모델을 사용해도 성능 향상은 없었다.
이 세 실험은 하나의 일관된 그림을 그린다: 온라인 파인튜닝의 이점은 생성-검증 격차가 존재할 때만 나타난다.
제2장에서 보았듯, 정책과 보상 모델은 수학적으로 동형이다. 그런데 왜 현실에서는 다른 결과가 나오는가?
핵심은 "수학적으로 같은 정보를 담고 있다"와 "같은 양의 데이터로 학습할 수 있다"는 전혀 다른 말이라는 것이다.
영한사전과 한영사전을 생각해보자. 둘 다 완벽하면 동일한 정보를 담고 있다 — 하나를 뒤집으면 다른 하나가 된다. 하지만 영한사전을 만드는 난이도와 한영사전을 만드는 난이도는 다를 수 있다. 한쪽은 규칙이 단순하고 예외가 적어서 적은 예시로 학습되는 반면, 다른 쪽은 불규칙한 예외가 많아서 많은 예시가 필요할 수 있다.
보상 모델 은 전체 궤적을 보고 하나의 점수를 매긴다 — "이 답변이 좋은가?" 한 문장이면 된다.
Q-함수 는 모든 중간 상태에서 남은 미래 가치를 계산해야 한다 — "여기까지 왔을 때, 이 토큰을 선택하면 앞으로 얼마나 좋아질 수 있는가?"를 모든 시점에서 대답해야 한다. 이것은 토큰 수준의 크레딧 할당(credit assignment)과 다단계 추론(multi-step reasoning)을 인코딩해야 한다는 뜻이다.
동일한 신경망 구조로 두 함수를 학습한다고 해도, Q-함수를 정확히 학습하려면 기하급수적으로 더 많은 데이터가 필요하다. 이것이 이론과 현실의 괴리를 만드는 근본 원인이다.
논문의 핵심 통찰을 수식으로 요약하면:
RLHF는 전체 정책 공간 를 탐색하는 대신, 단순한 보상 모델에 최적인 정책의 부분집합 만 탐색한다. 이 축소된 탐색 공간이 더 적은 데이터로도 좋은 정책을 찾게 해준다.
2025–2026년의 가장 중요한 트렌드 중 하나는 추론(reasoning) 특화 모델의 부상이다. OpenAI의 o1, o3, DeepSeek의 R1은 수학, 코딩, 과학 추론에서 전문가 수준의 성과를 보인다.
이 모델들이 왜 온라인 RL로 훈련되는지, 이 논문이 정확히 설명한다. 수학 문제 풀이, 코드 작성, 논리적 추론 — 이것들은 생성-검증 격차가 극단적으로 큰 문제다.
이 논문의 가설 6에 따르면, 생성-검증 격차가 클수록 온라인 RL의 이점도 커진다. DeepSeek R1이 600만 달러로 o1급 성능을 달성한 것, 그리고 온라인 RL이 그 핵심이었던 것은 이 이론과 정확히 일치한다.
2026년 현재, AI 에이전트가 도구를 사용하고, 여러 턴에 걸쳐 작업을 수행하고, 다른 에이전트와 협업하는 시대가 열리고 있다. 이것은 생성 길이(horizon)가 극적으로 늘어나는 것을 의미한다.
논문의 예측은 명확하다:
"점점 더 복잡해지고 장기 계획이 필요한 문제(다중 턴 RLHF, 에이전트 태스크, 나아가 실세계 로봇공학)에서, 온라인과 오프라인 파인튜닝의 격차는 더 벌어질 것이다."
단일 응답을 생성하는 것도 검증보다 어려운데, 10단계 계획을 세우고 실행하는 것은? 그 격차는 기하급수적으로 커진다. 반면 "이 계획이 목표를 달성했는가?"를 검증하는 것은 여전히 상대적으로 단순할 수 있다.
이 논문의 실무적 시사점은 강력하다:
검증이 생성보다 쉬운 문제라면 (대부분의 실용적 AI 문제가 그렇다), 제한된 인간 선호 데이터를 검증기(보상 모델) 학습에 투자하는 것이 최선이다.
보상 모델은 정책보다 작아도 된다. 검증이 단순하다면, 거대한 보상 모델은 낭비다.
오프라인 방법이 충분한 경우도 있다. 생성-검증 격차가 작은 문제(짧은 응답, 단순한 태스크)에서는 DPO 같은 오프라인 방법이 더 효율적일 수 있다.
문제의 본질을 먼저 진단하라. "이 문제에서 검증이 생성보다 얼마나 쉬운가?"를 먼저 판단하면, 최적의 훈련 전략을 선택할 수 있다.
이 논문의 가장 깊은 통찰은, AI 파인튜닝이라는 극도로 실용적인 문제가 컴퓨터 과학의 가장 근본적인 이론적 질문과 연결된다는 것이다.
1956년, 괴델은 폰 노이만에게 물었다: "증명을 검증하는 것만큼 빠르게 증명을 생성할 수 있는가?" 70년이 지난 지금, 우리는 AI 훈련에서 같은 질문에 직면하고 있다: "좋은 답변인지 판단하는 것만큼 쉽게 좋은 답변을 생성할 수 있는가?"
대답은 "아니오"일 가능성이 높다. 그리고 그것이 바로 RLHF가 작동하는 이유다.
RLHF의 2단계 구조는 이 비대칭을 최적으로 활용하는 전략이다:
데이터는 비싸고 희귀하다 (인간의 선호 판단은 제한적이다). 계산은 상대적으로 싸고 무한히 확장 가능하다 (GPU를 더 돌리면 된다). RLHF는 비싼 자원(데이터)을 쉬운 문제(검증)에 쓰고, 어려운 문제(생성)는 싼 자원(계산)으로 해결한다.
이것이 "모든 길은 우도로 통한다"의 진짜 의미다. 이론적으로 모든 경로가 같은 목적지로 향하지만, 검증의 쉬움이라는 지름길을 아는 여행자가 더 적은 노력으로 먼저 도착한다.
이 논문의 메시지는 역설적이다. 정보이론적으로, 2단계 온라인 파인튜닝은 1단계 오프라인 파인튜닝보다 나을 수 없다. 데이터 처리 부등식이 그렇게 말한다. 하지만 현실에서는 항상 이긴다. 그 이유는 우리가 살고 있는 세계의 구조 — 생성이 검증보다 어렵다는 근본적 비대칭 — 에 있다.
컴퓨터 과학이 70년간 풀지 못한 P ≠ NP 추측이, 2026년 AI 훈련의 실무적 선택을 설명한다. 수학 정리는 코딩 인터뷰와 무관해 보이고, 계산복잡도 이론은 GPU 클러스터와 동떨어져 보이지만, 결국 가장 깊은 이론이 가장 실용적인 가이드가 된다.
때로는 더 복잡한 길이 옳은 길이다. 단, 그 복잡함이 세계의 구조를 반영할 때에 한해서.
참고 문헌