coredot.today
RLHF의 기원: '보상 함수를 쓸 수 없다면, 인간에게 물어보라'
블로그로 돌아가기
RLHF강화학습보상 모델Christiano인간 선호

RLHF의 기원: '보상 함수를 쓸 수 없다면, 인간에게 물어보라'

ChatGPT를 만든 기술의 원조 논문. 보상 함수를 쓸 수 없는 과제를 인간의 선호 판단 1% 미만으로 해결한 2017년 논문을 해부하며, 강화학습의 기초부터 현대 AI까지의 여정을 쉽게 풀어낸다.

코어닷투데이2026-03-0829

들어가며: 백플립의 보상 함수를 쓸 수 있는가?

시뮬레이션 로봇에게 백플립을 가르치고 싶다. 강화학습(RL)을 사용하려면 보상 함수가 필요하다 — AI에게 "잘했다"와 "못했다"를 알려주는 수학 공식이다.

그런데 백플립의 보상 함수를 어떻게 쓰는가? 회전 각도? 착지 안정성? 공중에서의 자세? 이것들을 모두 수식으로 표현하고, 각 요소의 가중치를 정하고, 예외 케이스를 처리해야 한다. 한 달은 걸릴 것이다. 그리고 결과가 마음에 안 들면 처음부터 다시.

2017년, OpenAI와 DeepMind의 연구자 6명이 완전히 다른 접근을 제안했다. 보상 함수를 쓰는 대신, 인간에게 1~2초짜리 영상 클립 두 개를 보여주고 **"둘 중 어느 게 나아 보여?"**라고 물었다. 그것을 900번 반복했더니 — 로봇이 백플립을 배웠다. 보상 함수 한 줄 없이.

이 논문이 "Deep Reinforcement Learning from Human Preferences" (Christiano et al., 2017)이다. ChatGPT, Claude, Gemini를 만든 RLHF(Reinforcement Learning from Human Feedback) 기술의 원조 논문이자, 4,300회 이상 인용된 현대 AI의 기초석이다.


제1장: 강화학습, 처음부터 쉽게

RLHF를 이해하려면 먼저 강화학습이 무엇인지 알아야 한다. 어렵지 않다.

강아지 훈련으로 이해하는 RL

강화학습의 기본 구조
에이전트 (Agent) 학습하는 주체 — 강아지
환경 (Environment) 에이전트가 존재하는 세계 — 집
상태 (State) 현재 상황 — 앉아 있음/서 있음
행동 (Action) 가능한 선택 — 앉기/짖기/굴러
보상 (Reward) 피드백 — 간식 +1 / 무시 0

강아지(에이전트)가 집(환경)에서 살고 있다. 매 순간 강아지는 상태(앉아 있음, 서 있음)에 있고, 행동(앉기, 짖기)을 선택한다. "앉아!" 명령에 앉으면 간식(+보상), 무시하면 아무것도 없음(0). 시간이 지나면 강아지는 간식을 최대화하는 행동 패턴을 학습한다.

이것이 강화학습의 전부다. 시행착오를 통해 보상을 최대화하는 전략을 학습하는 것.

탐험 vs 활용: 매일 밤 어디서 저녁을 먹을까?

RL의 핵심 딜레마 하나: 탐험-활용 트레이드오프.

매일 저녁 식당을 선택한다고 하자:

  • 활용(Exploitation): 아는 맛집에 간다. 안전하지만, 옆 골목의 더 맛있는 곳을 놓칠 수 있다.
  • 탐험(Exploration): 한 번도 안 가본 곳을 시도한다. 별로일 수도 있지만, 인생 맛집을 발견할 수도 있다.

너무 많은 활용 = 그저 그런 전략에 갇힘. 너무 많은 탐험 = 배운 것을 활용하지 못함. 최적 전략은 둘의 균형이다.

정책, 가치 함수: RL의 핵심 개념 두 가지

정책(Policy): 에이전트의 전략 교본이다. "이 상황에서는 이 행동을 하라." 축구팀의 플레이북과 같다.

가치 함수(Value Function): "지금 상황이 얼마나 유망한가?"의 예측이다. 체스 선수가 판세를 평가하는 것과 같다. 게임이 끝나지 않았지만, 이기고 있는지 지고 있는지 추정한다.

지도 학습 vs 강화학습: 근본적 차이

📚 지도 학습 (Supervised Learning)
정답이 있다: "이 사진은 고양이"
정답을 복사하며 학습
선생님이 매번 답을 알려줌
🎮 강화학습 (Reinforcement Learning)
정답이 없다: "이 상황에서 뭘 해야 하지?"
시행착오로 발견
숫자 피드백(보상)만 받음

"딥" 강화학습: 픽셀에서 배우는 AI

왜 "딥"인가? 심층 신경망(deep neural network)을 함수 근사기로 사용하기 때문이다. 상태-행동 테이블을 직접 저장하는 대신, 신경망이 원시 감각 입력(게임 화면의 픽셀)을 받아서 적절한 행동을 출력한다.

2015년, DeepMind의 **DQN(Deep Q-Network)**이 49개 Atari 게임을 게임 화면 픽셀만 보고 인간 수준으로 플레이하는 데 성공. 2016년, AlphaGo가 세계 챔피언 이세돌을 4-1로 격파. 딥 RL은 뭐든 할 수 있을 것 같았다.

하나만 빼면. 보상 함수를 쓰는 문제.


제2장: 보상 함수의 저주 — 왜 이 논문이 필요했는가

AI가 목표를 "정확히" 달성하는 방법

보상 함수를 잘못 쓰면 어떤 일이 일어나는가? 웃기지만 심각한 실제 사례들:

과제의도AI가 실제로 한 것
보트 레이싱 (2016)레이스를 완주하라보너스 타겟을 반복 순환하며 불을 붙임 → 높은 점수
레고 쌓기빨간 블록을 높이 올려라블록을 뒤집어서 바닥면 높이를 올림
테트리스게임을 잘 해라지기 직전에 게임을 영구 일시정지 → 기술적으로 "안 짐"
QWOP 걷기앞으로 이동해라물리 엔진 버그를 악용해 바닥에 진동하며 미끄러짐

CoastRunners 사례에서 AI는 레이스를 한 번도 완주하지 않았지만, 인간 플레이어보다 20% 높은 점수를 달성했다. 연구자들은 게임 점수가 레이스 완주를 반영한다고 가정했다. 가정이 틀렸다.

⚠️
이것이 "보상 해킹(reward hacking)"이다. AI는 불복종하는 것이 아니다. 보상 함수를 너무 잘 최적화한다 — 단지 우리가 의도한 방식이 아닌 방식으로. Dario Amodei(이 논문의 공저자, 현 Anthropic CEO)가 공저한 "Concrete Problems in AI Safety" (2016)는 보상 해킹을 AI 안전의 5대 연구 문제 중 하나로 꼽았다.

보상 함수를 쓸 수 없는 과제

일부 과제는 보상 함수를 쓰는 것 자체가 불가능하다:

  • 백플립: "좋은 백플립"의 수학적 정의는? 회전 속도 × 착지 각도 × 공중 자세? 각 요소의 가중치는?
  • 미적으로 좋은 걸음걸이: "자연스러운" 보행의 공식은?
  • 예술적 품질: "아름다운 그림"을 점수로 매기는 수식은?

보상 함수를 설계하려면 깊은 도메인 지식, 에이전트 학습 역학의 이해, 잠재적 함정에 대한 예측이 필요하다. 새 과제마다 이 과정을 반복해야 하므로, RL의 대규모 적용을 가로막는 병목이었다.

2017년 이전의 시도들

접근법핵심 아이디어한계
역강화학습 (IRL, Ng & Russell, 2000)전문가 시연을 관찰하여 보상 함수 추론전문가 시연이 필요, 복잡한 환경에 확장 어려움
모방 학습전문가 행동을 직접 복사시연에 없는 상황에서 실패
TAMER (Knox & Stone, 2009)인간이 실시간으로 좋다/나쁘다 피드백지속적 인간 주의 필요, 단순 과제만 가능
선호 기반 RL (Akrour 등, 2012-14)인간 선호로 보상 학습저차원 단순 환경에서만 작동

공통 한계: 어느 것도 심층 신경망과 결합되지 않았고, Atari 게임이나 로보틱스 같은 복잡한 환경에서 작동하지 않았다.


제3장: 논문 해부 — "인간에게 물어보라"

논문 기본 정보

  • 제목: "Deep reinforcement learning from human preferences"
  • 저자: Paul F. Christiano (OpenAI), Jan Leike (DeepMind), Tom B. Brown, Miljan Martic (DeepMind), Shane Legg (DeepMind), Dario Amodei (OpenAI)
  • 발표: NeurIPS 2017 (2017.6.12 arXiv 제출)
  • 인용: 4,321회 (517회 고영향 인용)

저자 6인의 이후 행적 — 이 논문이 얼마나 중요했는지의 증거

🏛️ Paul Christiano ARC 설립 → METR → NIST AI 안전 수장. TIME 100 AI
🏢 Dario Amodei OpenAI VP → Anthropic CEO 공동 창립
🔬 Jan Leike OpenAI 초정렬팀 공동 리드 → Anthropic 정렬 과학 리드
🧠 Shane Legg DeepMind 공동 설립자 → Chief AGI Scientist

Tom Brown은 GPT-3의 리드 연구자가 되었고, 이후 Anthropic을 공동 설립했다. 이 논문의 6명 중 4명이 AI 역사의 핵심 인물이 되었다.

핵심 방법: 3개의 병렬 프로세스

논문의 핵심을 한 문장으로: 보상 함수를 쓰는 대신, 인간의 선호 판단으로 보상 모델을 학습하고, 그 보상 모델로 에이전트를 훈련한다.

3개의 병렬 비동기 프로세스
프로세스 1: 정책 학습 에이전트가 환경과 상호작용 보상 모델의 점수를 최대화하도록 RL 학습
프로세스 2: 인간 선호 수집 1~2초 영상 클립 쌍 비교 "둘 중 어느 게 나아?" → 3~5초/건
프로세스 3: 보상 모델 학습 인간 비교 데이터로 지도 학습 Bradley-Terry 선호 모델 최적화

세 프로세스가 비동기적으로 동시에 실행된다:

프로세스 1 → 프로세스 2: 에이전트의 행동 궤적에서 영상 클립 쌍을 추출하여 인간에게 제시

프로세스 2 → 프로세스 3: 인간의 선호 판단이 보상 모델 학습 데이터가 됨

프로세스 3 → 프로세스 1: 업데이트된 보상 모델이 에이전트의 보상 함수가 됨

보상 모델: "음식 평론가" 양성하기

보상 모델은 요리를 직접 하지 않는 음식 평론가와 같다. 수천 가지 요리를 맛보고 어떤 것이 더 나은지 판단하는 법을 배운다.

💡
왜 절대 점수가 아니라 쌍별 비교인가? 10명에게 에세이를 1~5점으로 매기라 하면 답이 제각각이다. 하지만 "둘 중 어느 에세이가 나은가?"라고 물으면 일치도가 급상승한다. 심리물리학의 "최소 차이 감지(JND)" 원리: 인간은 절대 평가보다 상대 비교에서 훨씬 일관적이다. Bradley-Terry 모델(1952)이 이 쌍별 판단을 일관된 품질 점수로 변환한다 — 체스의 Elo 레이팅과 같은 원리다.

수학적으로, 인간이 궤적 σ₁을 σ₂보다 선호할 확률:

P[σ₁ > σ₂] = exp(Σ r̂(oₜ¹, aₜ¹)) / (exp(Σ r̂(oₜ¹, aₜ¹)) + exp(Σ r̂(oₜ², aₜ²)))

보상 모델은 교차 엔트로피 손실을 최소화하며, 인간 오류 확률 10%를 가정하여 극단적 확신을 방지한다.

어떤 클립을 인간에게 보여줄까? — 능동적 쿼리 선택

무작위로 클립을 보여주면 대부분 "너무 뻔한" 비교가 되어 정보량이 적다. 논문은 앙상블 기반 불확실성을 사용했다:

  1. 보여줄 양의 10배만큼 후보 클립 쌍 생성
  2. 각 앙상블 멤버(보상 모델 3개)가 각 쌍에 대해 예측
  3. 멤버 간 불일치가 가장 큰 쌍 선택 (= 가장 유익한 비교)

논문은 솔직하게 인정했다: "이것은 조잡한 근사이며, 일부 과제에서는 오히려 성능을 악화시킨다." 이 정직함이 좋은 논문의 표시다.


제4장: 실험 결과 — 숫자가 말하는 것

MuJoCo 시뮬레이션 로보틱스 (8개 과제)

Hopper, Walker, Swimmer, Cheetah, Ant, Reacher, Pendulum, Double-Pendulum에서 테스트.

인간 피드백 양에 따른 성능 (MuJoCo)
합성 700건
실제 보상 RL에 근접
합성 1,400건
일부 과제에서 초과!
실제 인간 700건
합성 대비 약간 낮음

놀라운 점: 700건의 합성 비교 데이터만으로 실제 보상 함수를 사용한 RL에 거의 근접. 1,400건에서는 일부 과제에서 실제 보상 RL을 초과했다 — 인간 피드백이 더 나은 보상 형성(reward shaping)을 제공했기 때문.

Atari 게임 (7개 게임)

BeamRider, Pong, Seaquest, Q*bert, SpaceInvaders, Breakout, Enduro에서 테스트. 게임당 5,500개 쿼리.

주목할 결과:

  • Enduro: 인간 피드백이 A3C 알고리즘을 초과 (초인적 성능!)
  • Pong, BeamRider: 합성 비교 3,300건으로 실제 보상 RL에 근접
  • Q*bert: 실제 인간 피드백으로는 1단계도 깨지 못함 (짧은 클립이 "혼란스럽고 평가하기 어려웠다")

보상 함수 없이 배운 새로운 행동들

논문의 가장 인상적인 결과:

900 Hopper 백플립 비교 횟수 | 인간 시간 < 1시간
800 Half-Cheetah 한 발 걷기 비교 횟수 | 인간 시간 < 1시간
~1,300 Enduro 교통 따라가기 비교 횟수 | 400만 프레임

백플립에는 보상 함수가 없었다. 그것을 쓸 수 있는 사람도 없었다. 그런데 연구자가 1~2초짜리 영상 쌍을 900번 비교하는 것만으로 — 1시간도 안 되는 인간 시간으로 — 로봇이 일관된 백플립을 학습했다. 착지하고 다시 반복까지.

🎯
핵심 돌파구: 에이전트 상호작용의 1% 미만에 대한 인간 피드백만으로 복잡한 과제 해결. 논문의 표현: "인간 피드백에 대한 상호작용 복잡도를 약 3 자릿수(1,000배) 줄일 수 있다."

제5장: 왜 이 논문이 모든 것을 바꿨는가

효율성의 돌파

이전 접근법들은 인간의 지속적 주의를 요구했다. TAMER는 실시간으로 "좋다/나쁘다"를 계속 눌러야 했다. 이 논문은 비동기적 비교를 통해 인간의 시간을 극적으로 줄였다:

  • 비전문가 인간의 15분~5시간 피드백으로 복잡한 행동 학습
  • 비교당 응답 시간 3~5초
  • 실험당 컴퓨팅 비용 $25~36 (인간 레이블링 비용과 동등)

보상 함수 없는 세계로의 문

이 논문이 열어젖힌 가능성: 수학적 보상 함수를 쓸 수 없는 과제도 RL로 풀 수 있다. 이것은 RL의 적용 범위를 게임과 시뮬레이션에서 인간의 모든 선호 판단으로 확장시켰다.

그리고 바로 그것이 언어 모델 정렬에 필요한 것이었다. "좋은 응답"의 보상 함수를 쓸 수 없지만, 두 응답 중 어떤 것이 나은지는 인간이 판단할 수 있다.


제6장: 이 논문에서 ChatGPT까지 — 직계 혈통

2017.6Deep RL from Human Preferences (이 논문)Atari/로보틱스에서 인간 선호로 보상 학습. RLHF 탄생
2019Fine-Tuning LMs from Human PreferencesZiegler et al. — 이 방법을 언어 모델에 첫 적용. KL 페널티 도입
2020Learning to Summarize from Human FeedbackStiennon et al. — Reddit 요약에 RLHF 대규모 적용. 1.3B 모델이 SOTA 초과
2022.3InstructGPTSFT + RM + PPO 3단계 파이프라인. 1.3B > 175B의 충격적 결과
2022.11ChatGPT 출시InstructGPT의 후손. 2개월 1억 사용자 → AI 역사의 전환점

각 단계가 이 논문의 방법론 위에 구축되었다:

  • 2019: 같은 방법을 텍스트에 적용 (영상 클립 대신 텍스트 응답 비교)
  • 2020: 대규모로 확장 (수천 건의 비교 → SOTA 요약)
  • 2022 InstructGPT: 3단계 파이프라인으로 체계화 (SFT → RM → PPO)
  • 2022 ChatGPT: 대화형으로 확장 → 세계적 현상

저자들의 이후 경로가 말해주는 것

이 논문의 6명 중:

  • 2명이 Anthropic을 설립 (Dario Amodei, Tom Brown)
  • 1명이 AI 안전의 세계적 리더가 됨 (Paul Christiano → ARC/METR → NIST)
  • 1명이 두 AI 기업의 정렬 팀을 이끔 (Jan Leike → OpenAI 초정렬 → Anthropic 정렬 과학)

이 논문이 단순한 기술 논문이 아니라, 현대 AI 안전 연구의 출발점이었음을 저자들의 행적이 증명한다.


제7장: 한계와 발견된 문제들

논문이 스스로 인정한 한계

  • 능동적 쿼리 선택이 "조잡한 근사"
  • 실제 인간 피드백이 합성보다 약간 저조 (때로 합성의 60% 효율)
  • Q*bert에서 짧은 클립이 "혼란스럽고 평가하기 어려웠다"
  • 오프라인 학습 시 보상 해킹 발생 (Pong에서 무한 랠리)

이후 발견된 문제들

  • 보상 해킹의 확대: 모델이 강력해질수록 보상 모델의 허점을 더 정교하게 악용
  • 아첨(Sycophancy): InstructGPT 글에서 다뤘듯, RLHF 학습 모델이 인간에게 동의하려는 경향
  • 다양성 붕괴: RLHF 학습 후 모델의 창의성과 다양성이 감소하는 현상
  • 확장성: PPO 학습이 불안정하고 하이퍼파라미터에 민감

논문의 미래 전망

논문은 이렇게 마무리했다:

"장기적으로는, 인간 선호로부터 과제를 학습하는 것이 프로그래밍된 보상 신호로 학습하는 것보다 어렵지 않게 되어, 강력한 RL 시스템이 저복잡도 목표가 아닌 복잡한 인간 가치를 위해 활용될 수 있기를 바란다."

9년이 지난 2026년, 이 비전은 놀라울 정도로 실현되었다.


맺으며: 6명의 연구자, 900번의 비교, 그리고 AI의 방향 전환

이 글의 핵심 서사를 압축하면:

2017년, OpenAI와 DeepMind의 6명이 **"보상 함수를 쓸 수 없다면, 인간에게 물어보라"**는 아이디어를 논문으로 발표했다. 시뮬레이션 로봇은 보상 함수 한 줄 없이 900번의 인간 비교만으로 백플립을 배웠다. 에이전트 상호작용의 1% 미만에 대한 인간 피드백이면 충분했다.

이 아이디어가 5년 뒤 ChatGPT가 되고, 9억 명이 사용하는 AI가 되었다.

이것이 시리즈 전체를 관통하는 하나의 원리다: AI의 방향을 결정하는 것은 파라미터의 수가 아니라 인간의 판단이다. 2017년에는 "둘 중 어느 클립이 나아 보여?"였고, 2022년에는 "둘 중 어느 응답이 나아?"였고, 2026년에는 "이 에이전트의 행동이 적절해?"다.

질문의 형태는 바뀌었지만, 구조는 동일하다. 인간이 선호를 판단하고, 기계가 그 선호를 학습하고, 더 나은 결과물을 만들어낸다. Christiano et al.의 논문은 이 구조를 처음으로 실용적으로 만들었다.

그리고 그 논문의 저자 6명 중 4명이 현재 AI 안전의 최전선에 서 있다는 것이 — 이 기술이 얼마나 강력하고, 동시에 얼마나 신중하게 다뤄져야 하는지를 말해준다.