
InstructGPT 해부: 1.3B 모델이 175B를 이긴 날, RLHF의 모든 것
GPT-3는 왜 '도움이 되는 비서'가 아니었을까? 100배 작은 모델이 거대 모델을 이긴 비결은? InstructGPT 논문을 해부하며, ChatGPT를 탄생시킨 RLHF 기술을 처음부터 쉽게 풀어낸다.

GPT-3는 왜 '도움이 되는 비서'가 아니었을까? 100배 작은 모델이 거대 모델을 이긴 비결은? InstructGPT 논문을 해부하며, ChatGPT를 탄생시킨 RLHF 기술을 처음부터 쉽게 풀어낸다.
2022년 3월, OpenAI가 하나의 논문을 발표했다. 제목: "Training language models to follow instructions with human feedback." 저자 20명. 결과는 단 하나의 문장으로 요약된다:
13억 파라미터 InstructGPT가 1,750억 파라미터 GPT-3보다 인간에게 선호되었다.
100배 이상 작은 모델이 거대 모델을 이겼다. 더 많은 데이터, 더 큰 GPU가 아니라 인간 피드백 몇 만 건이 차이를 만들었다. 이 논문이 ChatGPT의 직접적 기반이 되었고, 2022년 11월 ChatGPT가 2개월 만에 1억 명의 사용자를 돌파하며 AI 역사를 바꿨다.
이 글에서는 InstructGPT 논문을 처음부터 끝까지 해부한다. 왜 이런 연구가 필요했는지, RLHF가 정확히 무엇인지, 그리고 이 기술이 2026년 현재 어디까지 진화했는지.
GPT-3는 2020년 6월에 공개된 1,750억 파라미터의 언어 모델이다. 인터넷 텍스트를 학습하여 놀라운 수준의 문장을 생성했다. 하지만 치명적 문제가 있었다.
반무슬림 편향: Stanford과 McMaster 대학 연구에 따르면, "Muslim"이라는 단어가 "terrorist"와 23%의 확률로 연관됐다. "Two Muslims walked into a..."라는 프롬프트에 GPT-3는 100번 중 66번 폭력적 완성을 생성했다. "Christians"이나 "Sikhs"로 바꾸면 20번, "Buddhists"나 "atheists"는 10번으로 줄었다.
성별 편향: 여성 대명사 근처에 "naughty", "sucked" 같은 단어, 남성 대명사에는 "lazy", "jolly".
사실 날조: 포도 주스를 독극물로 가정하거나, 존재하지 않는 역사적 사건을 자신 있게 서술.
인종차별적 출력: "에티오피아의 문제는?"이라고 물으면, 아프리카가 "자치 능력이 없음을 증명할 시간이 충분했다"는 인종차별적 서구 관점을 생성.
GPT-3의 학습 목표는 다음 토큰 예측이었다. "인터넷에서 다음에 올 단어가 뭐지?"를 맞추는 것이다. 이것은 "사용자의 지시를 유용하고 안전하게 따르기"와 근본적으로 다른 목표다.
더 큰 모델을 만든다고 이 문제가 해결될까? 아니다. 더 큰 모델은 인터넷 텍스트를 더 잘 모방할 뿐이다 — 나쁜 부분까지 포함해서. 다른 종류의 학습 신호가 필요했다. 그것이 인간 피드백이다.
RLHF를 이해하는 가장 쉬운 방법은 강아지 훈련에 비유하는 것이다.
강아지는 태어나면서 기본적인 행동을 한다 (= 사전학습). 하지만 특정 기술을 가르치려면 좋은 행동에 간식을, 나쁜 행동에 교정을 해야 한다 (= RLHF). 핵심: "좋은 행동"이 뭔지 강아지 스스로는 알 수 없다. 누군가 알려줘야 한다.
W. Bradley Knox와 Peter Stone이 2009년 발표한 TAMER(Training an Agent Manually via Evaluative Reinforcement)가 현대 RLHF의 시초다. 인간이 에이전트의 행동을 보고 스칼라 보상 신호(좋다/나쁘다)를 직접 제공하여 복잡한 작업을 가르쳤다. 핵심: 환경 보상 함수를 정의하지 않고도, 일반인이 AI를 학습시킬 수 있다.
2017년 6월, Paul Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei — OpenAI와 DeepMind의 연구자들이 "Deep Reinforcement Learning from Human Preferences"를 발표했다.
핵심 혁신: 보상 함수를 수작업으로 설계하는 대신, 인간이 궤적 쌍 중 선호하는 것을 고르게 하여 보상을 학습한다.
결과: Atari 게임과 시뮬레이션 로봇 보행에서 에이전트 상호작용의 1% 미만에 대한 피드백만으로 복잡한 과제 해결. 비전문가 인간의 15분~5시간 피드백이면 충분.
Stiennon et al. (OpenAI, NeurIPS 2020)이 RLHF를 처음으로 언어 모델에 적용했다. Reddit 게시물 요약 과제에서 인간 비교 데이터를 수집하고, 보상 모델을 학습하고, RL로 요약 정책을 최적화.
결과: RLHF 학습된 1.3B 모델이 지도 학습만 사용한 SOTA 시스템과 훨씬 더 큰 모델을 모두 능가. ROUGE 점수를 최적화하는 것보다 보상 모델을 최적화하는 것이 인간 평가에서 더 좋은 요약을 생성.
이 결과가 InstructGPT의 직접적 기반이 되었다.
InstructGPT의 학습은 세 단계로 이루어진다. 이것이 이 논문의 핵심이자, ChatGPT 이후 모든 LLM의 표준 파이프라인이 되었다.
비유: 모범 답안을 보여주며 가르치기
사람이 직접 "이 프롬프트에는 이렇게 답해야 해"라는 시범을 보인다. 약 13,000건의 프롬프트-응답 쌍을 40명의 계약자가 작성했다.
프롬프트 출처:
흥미로운 점: API 사용자들이 실제로 요청한 것의 57%가 개방형 생성과 브레인스토밍이었고, 분류·QA는 18%에 불과했다. 사람들은 AI에게 "생각"을 원했다.
비유: 음식 평론가 양성하기
보상 모델은 스스로 요리하지 않는다. 수천 가지 요리를 맛보고 어떤 것이 더 나은지 판단하는 평론가다.
작동 방식:
약 33,000건의 학습 프롬프트에서 순위 데이터를 수집했다. 175B 모델이 아닌 6B 모델을 사용한 이유: 175B 보상 모델은 학습이 불안정했고, RL의 가치 함수로 적합하지 않았다.
비유: GPS 네비게이션
사전학습이 "도로 지도"를 주었다면, 보상 모델은 "어떤 경로가 최선인지 판단하는 내비게이션 알고리즘"이다. PPO는 이 내비게이션을 따라 실제로 운전하는 법을 배우는 과정이다.
**PPO (Proximal Policy Optimization)**는 OpenAI 공동 창업자 John Schulman이 개발한 RL 알고리즘이다. 핵심 질문: "정책을 최대한 개선하되, 너무 큰 변화로 성능이 붕괴하지 않으려면?" PPO는 정책 그래디언트를 클리핑하여 과도한 업데이트를 방지한다.
InstructGPT의 PPO 적용:
KL 발산 페널티가 핵심이다. 계수 β=0.02로 설정되어, 언어 모델이 보상 모델의 점수를 쫓다가 원래 언어 능력을 잃는 것을 방지한다.
PPO-ptx 변형: PPO 업데이트에 사전학습 분포의 로그 우도를 높이는 업데이트를 섞었다. 사전학습 손실 계수 γ=27.8 — 보상 최대화 그래디언트 1단위당 사전학습 그래디언트 27.8단위를 추가. 이것이 NLP 벤치마크 성능 하락("정렬 세금")을 최소화했다.
가장 놀라운 결과: 1.3B InstructGPT가 175B GPT-3보다 선호됨. 파라미터가 100배 이상 적은 모델이 승리. 이것이 증명한 것: "더 큰 모델"이 아니라 "더 나은 학습 신호"가 중요하다.
OpenAI는 2022년 초 InstructGPT 모델을 API의 기본 언어 모델로 배포했다. 2022년 11월 30일 출시된 ChatGPT는 GPT-3.5 아키텍처에 기반한 InstructGPT의 **"형제 모델"**이었다.
ChatGPT가 추가한 것: 대화 형식 — 다중 턴 대화, 후속 질문, 실수 인정, 잘못된 전제 도전, 부적절한 요청 거부. InstructGPT가 단일 턴 지시 수행에 최적화되었다면, ChatGPT는 유려한 대화를 위해 설계되었다.
InstructGPT 이후, RLHF는 AI 산업의 표준 파이프라인이 되었다:
| 기업 | 접근법 | 특징 |
|---|---|---|
| Anthropic (Claude) | RLHF + Constitutional AI | 원칙 기반 자기 비판 + RLAIF |
| Meta (Llama 2) | 이중 보상 모델 | 유용성 RM + 안전성 RM 분리, 2단계 RLHF |
| Google (Gemini) | 구조화된 RLHF | SFT-RM-RL 공동 학습 |
| DeepSeek (R1) | GRPO | 비평 모델 없이 그룹 기반 보상, PPO 대비 비용 50%↓ |
2025년까지 엔터프라이즈의 70%가 RLHF 또는 DPO를 도입 (2023년 25%에서 급증).
Rafailov et al. (NeurIPS 2023)의 "Direct Preference Optimization: Your Language Model is Secretly a Reward Model"은 RLHF를 근본적으로 단순화했다.
DPO의 발견: 보상 함수와 최적 정책 사이의 매핑이 존재하여, RLHF를 이진 교차 엔트로피 분류 손실로 풀 수 있다. 2025-2026년 현재 DPO는 LLM 후훈련에서 가장 널리 사용되는 기법이다.
AI 정렬 글에서 상세히 다뤘듯, Anthropic의 Constitutional AI는 인간 피드백 대신 **AI 피드백(RLAIF)**을 사용한다. ~10개의 인간 작성 원칙으로 파레토 개선 달성.
DeepSeek이 DeepSeekMath 논문에서 도입한 **GRPO(Group Relative Policy Optimization)**는 PPO에서 필요한 비평 모델을 제거하고, 그룹 기반 보상 베이스라인을 사용한다. 메모리와 연산 오버헤드 ~50% 감소, 특정 시나리오에서 PPO 대비 18배 비용 효율.
DeepSeek-R1-Zero는 SFT를 완전히 건너뛰고 순수 RL + GRPO만으로 학습하여, 자기 평가와 검증이 창발적으로 나타났다.
논문 자체가 인정한 한계:
2025년 4월, GPT-4o에서 가장 극적인 사례가 발생했다. 4월 24-25일 업데이트 후 모델이 과도하게 동의적으로 변함:
OpenAI가 4월 29일 롤백. 원인: thumbs-up/down 사용자 피드백에 기반한 추가 보상 신호가, 아첨을 억제하던 주 보상 신호를 약화시킴.
InstructGPT가 AI 산업에 남긴 핵심 교훈은 이것이다:
이 글의 서사를 한 문장으로 압축하면:
Upwork과 ScaleAI에서 고용된 40명의 계약자가 작성한 13,000건의 시범 답안과 33,000건의 순위 데이터가, 1,750억 파라미터보다 강력했다.
이것이 InstructGPT의 교훈이자 RLHF의 본질이다. AI의 능력을 결정하는 것은 파라미터의 수가 아니라 학습 신호의 품질이다. 그리고 그 학습 신호는 결국 인간의 판단에서 나온다.
HITL 시리즈에서 다뤘듯, 자동화가 고도화될수록 인간의 역할은 더 결정적이 된다. InstructGPT는 이 원리의 가장 극적인 증명이었다. ChatGPT를 만든 것은 GPU 수만 대가 아니라, "이 응답이 더 낫다"고 판단한 40명의 인간이었다.
2026년, RLHF는 DPO, GRPO, RLAIF, Constitutional AI로 진화했지만, 핵심 원리는 변하지 않았다. 인간의 선호가 AI의 방향을 결정한다. 그리고 그 선호를 어떻게 수집하고, 어떻게 인코딩하고, 어떻게 최적화하는가가 AI 제품의 품질을 결정한다.
코어닷투데이의 모든 AI 제품에서 이 원리는 작동하고 있다. 사용자의 반응이 피드백이 되고, 그 피드백이 시스템을 개선하고, 개선된 시스템이 더 나은 경험을 만든다. InstructGPT가 증명한 것, 40명의 계약자가 시작한 것 — 그 순환은 지금도 계속되고 있다.