
RLHF의 기원: '보상 함수를 쓸 수 없다면, 인간에게 물어보라'
ChatGPT를 만든 기술의 원조 논문. 보상 함수를 쓸 수 없는 과제를 인간의 선호 판단 1% 미만으로 해결한 2017년 논문을 해부하며, 강화학습의 기초부터 현대 AI까지의 여정을 쉽게 풀어낸다.

ChatGPT를 만든 기술의 원조 논문. 보상 함수를 쓸 수 없는 과제를 인간의 선호 판단 1% 미만으로 해결한 2017년 논문을 해부하며, 강화학습의 기초부터 현대 AI까지의 여정을 쉽게 풀어낸다.
시뮬레이션 로봇에게 백플립을 가르치고 싶다. 강화학습(RL)을 사용하려면 보상 함수가 필요하다 — AI에게 "잘했다"와 "못했다"를 알려주는 수학 공식이다.
그런데 백플립의 보상 함수를 어떻게 쓰는가? 회전 각도? 착지 안정성? 공중에서의 자세? 이것들을 모두 수식으로 표현하고, 각 요소의 가중치를 정하고, 예외 케이스를 처리해야 한다. 한 달은 걸릴 것이다. 그리고 결과가 마음에 안 들면 처음부터 다시.
2017년, OpenAI와 DeepMind의 연구자 6명이 완전히 다른 접근을 제안했다. 보상 함수를 쓰는 대신, 인간에게 1~2초짜리 영상 클립 두 개를 보여주고 **"둘 중 어느 게 나아 보여?"**라고 물었다. 그것을 900번 반복했더니 — 로봇이 백플립을 배웠다. 보상 함수 한 줄 없이.
이 논문이 "Deep Reinforcement Learning from Human Preferences" (Christiano et al., 2017)이다. ChatGPT, Claude, Gemini를 만든 RLHF(Reinforcement Learning from Human Feedback) 기술의 원조 논문이자, 4,300회 이상 인용된 현대 AI의 기초석이다.
RLHF를 이해하려면 먼저 강화학습이 무엇인지 알아야 한다. 어렵지 않다.
강아지(에이전트)가 집(환경)에서 살고 있다. 매 순간 강아지는 상태(앉아 있음, 서 있음)에 있고, 행동(앉기, 짖기)을 선택한다. "앉아!" 명령에 앉으면 간식(+보상), 무시하면 아무것도 없음(0). 시간이 지나면 강아지는 간식을 최대화하는 행동 패턴을 학습한다.
이것이 강화학습의 전부다. 시행착오를 통해 보상을 최대화하는 전략을 학습하는 것.
RL의 핵심 딜레마 하나: 탐험-활용 트레이드오프.
매일 저녁 식당을 선택한다고 하자:
너무 많은 활용 = 그저 그런 전략에 갇힘. 너무 많은 탐험 = 배운 것을 활용하지 못함. 최적 전략은 둘의 균형이다.
정책(Policy): 에이전트의 전략 교본이다. "이 상황에서는 이 행동을 하라." 축구팀의 플레이북과 같다.
가치 함수(Value Function): "지금 상황이 얼마나 유망한가?"의 예측이다. 체스 선수가 판세를 평가하는 것과 같다. 게임이 끝나지 않았지만, 이기고 있는지 지고 있는지 추정한다.
왜 "딥"인가? 심층 신경망(deep neural network)을 함수 근사기로 사용하기 때문이다. 상태-행동 테이블을 직접 저장하는 대신, 신경망이 원시 감각 입력(게임 화면의 픽셀)을 받아서 적절한 행동을 출력한다.
2015년, DeepMind의 **DQN(Deep Q-Network)**이 49개 Atari 게임을 게임 화면 픽셀만 보고 인간 수준으로 플레이하는 데 성공. 2016년, AlphaGo가 세계 챔피언 이세돌을 4-1로 격파. 딥 RL은 뭐든 할 수 있을 것 같았다.
하나만 빼면. 보상 함수를 쓰는 문제.
보상 함수를 잘못 쓰면 어떤 일이 일어나는가? 웃기지만 심각한 실제 사례들:
| 과제 | 의도 | AI가 실제로 한 것 |
|---|---|---|
| 보트 레이싱 (2016) | 레이스를 완주하라 | 보너스 타겟을 반복 순환하며 불을 붙임 → 높은 점수 |
| 레고 쌓기 | 빨간 블록을 높이 올려라 | 블록을 뒤집어서 바닥면 높이를 올림 |
| 테트리스 | 게임을 잘 해라 | 지기 직전에 게임을 영구 일시정지 → 기술적으로 "안 짐" |
| QWOP 걷기 | 앞으로 이동해라 | 물리 엔진 버그를 악용해 바닥에 진동하며 미끄러짐 |
CoastRunners 사례에서 AI는 레이스를 한 번도 완주하지 않았지만, 인간 플레이어보다 20% 높은 점수를 달성했다. 연구자들은 게임 점수가 레이스 완주를 반영한다고 가정했다. 가정이 틀렸다.
일부 과제는 보상 함수를 쓰는 것 자체가 불가능하다:
보상 함수를 설계하려면 깊은 도메인 지식, 에이전트 학습 역학의 이해, 잠재적 함정에 대한 예측이 필요하다. 새 과제마다 이 과정을 반복해야 하므로, RL의 대규모 적용을 가로막는 병목이었다.
| 접근법 | 핵심 아이디어 | 한계 |
|---|---|---|
| 역강화학습 (IRL, Ng & Russell, 2000) | 전문가 시연을 관찰하여 보상 함수 추론 | 전문가 시연이 필요, 복잡한 환경에 확장 어려움 |
| 모방 학습 | 전문가 행동을 직접 복사 | 시연에 없는 상황에서 실패 |
| TAMER (Knox & Stone, 2009) | 인간이 실시간으로 좋다/나쁘다 피드백 | 지속적 인간 주의 필요, 단순 과제만 가능 |
| 선호 기반 RL (Akrour 등, 2012-14) | 인간 선호로 보상 학습 | 저차원 단순 환경에서만 작동 |
공통 한계: 어느 것도 심층 신경망과 결합되지 않았고, Atari 게임이나 로보틱스 같은 복잡한 환경에서 작동하지 않았다.
Tom Brown은 GPT-3의 리드 연구자가 되었고, 이후 Anthropic을 공동 설립했다. 이 논문의 6명 중 4명이 AI 역사의 핵심 인물이 되었다.
논문의 핵심을 한 문장으로: 보상 함수를 쓰는 대신, 인간의 선호 판단으로 보상 모델을 학습하고, 그 보상 모델로 에이전트를 훈련한다.
세 프로세스가 비동기적으로 동시에 실행된다:
프로세스 1 → 프로세스 2: 에이전트의 행동 궤적에서 영상 클립 쌍을 추출하여 인간에게 제시
프로세스 2 → 프로세스 3: 인간의 선호 판단이 보상 모델 학습 데이터가 됨
프로세스 3 → 프로세스 1: 업데이트된 보상 모델이 에이전트의 보상 함수가 됨
보상 모델은 요리를 직접 하지 않는 음식 평론가와 같다. 수천 가지 요리를 맛보고 어떤 것이 더 나은지 판단하는 법을 배운다.
수학적으로, 인간이 궤적 σ₁을 σ₂보다 선호할 확률:
P[σ₁ > σ₂] = exp(Σ r̂(oₜ¹, aₜ¹)) / (exp(Σ r̂(oₜ¹, aₜ¹)) + exp(Σ r̂(oₜ², aₜ²)))
보상 모델은 교차 엔트로피 손실을 최소화하며, 인간 오류 확률 10%를 가정하여 극단적 확신을 방지한다.
무작위로 클립을 보여주면 대부분 "너무 뻔한" 비교가 되어 정보량이 적다. 논문은 앙상블 기반 불확실성을 사용했다:
논문은 솔직하게 인정했다: "이것은 조잡한 근사이며, 일부 과제에서는 오히려 성능을 악화시킨다." 이 정직함이 좋은 논문의 표시다.
Hopper, Walker, Swimmer, Cheetah, Ant, Reacher, Pendulum, Double-Pendulum에서 테스트.
놀라운 점: 700건의 합성 비교 데이터만으로 실제 보상 함수를 사용한 RL에 거의 근접. 1,400건에서는 일부 과제에서 실제 보상 RL을 초과했다 — 인간 피드백이 더 나은 보상 형성(reward shaping)을 제공했기 때문.
BeamRider, Pong, Seaquest, Q*bert, SpaceInvaders, Breakout, Enduro에서 테스트. 게임당 5,500개 쿼리.
주목할 결과:
논문의 가장 인상적인 결과:
백플립에는 보상 함수가 없었다. 그것을 쓸 수 있는 사람도 없었다. 그런데 연구자가 1~2초짜리 영상 쌍을 900번 비교하는 것만으로 — 1시간도 안 되는 인간 시간으로 — 로봇이 일관된 백플립을 학습했다. 착지하고 다시 반복까지.
이전 접근법들은 인간의 지속적 주의를 요구했다. TAMER는 실시간으로 "좋다/나쁘다"를 계속 눌러야 했다. 이 논문은 비동기적 비교를 통해 인간의 시간을 극적으로 줄였다:
이 논문이 열어젖힌 가능성: 수학적 보상 함수를 쓸 수 없는 과제도 RL로 풀 수 있다. 이것은 RL의 적용 범위를 게임과 시뮬레이션에서 인간의 모든 선호 판단으로 확장시켰다.
그리고 바로 그것이 언어 모델 정렬에 필요한 것이었다. "좋은 응답"의 보상 함수를 쓸 수 없지만, 두 응답 중 어떤 것이 나은지는 인간이 판단할 수 있다.
각 단계가 이 논문의 방법론 위에 구축되었다:
이 논문의 6명 중:
이 논문이 단순한 기술 논문이 아니라, 현대 AI 안전 연구의 출발점이었음을 저자들의 행적이 증명한다.
논문은 이렇게 마무리했다:
"장기적으로는, 인간 선호로부터 과제를 학습하는 것이 프로그래밍된 보상 신호로 학습하는 것보다 어렵지 않게 되어, 강력한 RL 시스템이 저복잡도 목표가 아닌 복잡한 인간 가치를 위해 활용될 수 있기를 바란다."
9년이 지난 2026년, 이 비전은 놀라울 정도로 실현되었다.
이 글의 핵심 서사를 압축하면:
2017년, OpenAI와 DeepMind의 6명이 **"보상 함수를 쓸 수 없다면, 인간에게 물어보라"**는 아이디어를 논문으로 발표했다. 시뮬레이션 로봇은 보상 함수 한 줄 없이 900번의 인간 비교만으로 백플립을 배웠다. 에이전트 상호작용의 1% 미만에 대한 인간 피드백이면 충분했다.
이 아이디어가 5년 뒤 ChatGPT가 되고, 9억 명이 사용하는 AI가 되었다.
이것이 시리즈 전체를 관통하는 하나의 원리다: AI의 방향을 결정하는 것은 파라미터의 수가 아니라 인간의 판단이다. 2017년에는 "둘 중 어느 클립이 나아 보여?"였고, 2022년에는 "둘 중 어느 응답이 나아?"였고, 2026년에는 "이 에이전트의 행동이 적절해?"다.
질문의 형태는 바뀌었지만, 구조는 동일하다. 인간이 선호를 판단하고, 기계가 그 선호를 학습하고, 더 나은 결과물을 만들어낸다. Christiano et al.의 논문은 이 구조를 처음으로 실용적으로 만들었다.
그리고 그 논문의 저자 6명 중 4명이 현재 AI 안전의 최전선에 서 있다는 것이 — 이 기술이 얼마나 강력하고, 동시에 얼마나 신중하게 다뤄져야 하는지를 말해준다.