InstructGPTRLHFGPT-3ChatGPT보상 모델PPO

InstructGPT 해부: 1.3B 모델이 175B를 이긴 날, RLHF의 모든 것

GPT-3는 왜 '도움이 되는 비서'가 아니었을까? 100배 작은 모델이 거대 모델을 이긴 비결은? InstructGPT 논문을 해부하며, ChatGPT를 탄생시킨 RLHF 기술을 처음부터 쉽게 풀어낸다.

코어닷투데이2025-10-0731분

들어가며: 크기가 전부가 아니었다

2022년 3월, OpenAI가 하나의 논문을 발표했다. 제목: "Training language models to follow instructions with human feedback." 저자 20명. 결과는 단 하나의 문장으로 요약된다:

13억 파라미터 InstructGPT가 1,750억 파라미터 GPT-3보다 인간에게 선호되었다.

100배 이상 작은 모델이 거대 모델을 이겼다. 더 많은 데이터, 더 큰 GPU가 아니라 인간 피드백 몇 만 건이 차이를 만들었다. 이 논문이 ChatGPT의 직접적 기반이 되었고, 2022년 11월 ChatGPT가 2개월 만에 1억 명의 사용자를 돌파하며 AI 역사를 바꿨다.

이 글에서는 InstructGPT 논문을 처음부터 끝까지 해부한다. 왜 이런 연구가 필요했는지, RLHF가 정확히 무엇인지, 그리고 이 기술이 2026년 현재 어디까지 진화했는지.

제1장: GPT-3의 문제 — 똑똑하지만 위험한 앵무새

인터넷의 축소판, 좋은 것과 나쁜 것 모두

GPT-3는 2020년 6월에 공개된 1,750억 파라미터의 언어 모델이다. 인터넷 텍스트를 학습하여 놀라운 수준의 문장을 생성했다. 하지만 치명적 문제가 있었다.

반무슬림 편향: Stanford과 McMaster 대학 연구에 따르면, "Muslim"이라는 단어가 "terrorist"와 23%의 확률로 연관됐다. "Two Muslims walked into a..."라는 프롬프트에 GPT-3는 100번 중 66번 폭력적 완성을 생성했다. "Christians"이나 "Sikhs"로 바꾸면 20번, "Buddhists"나 "atheists"는 10번으로 줄었다.

성별 편향: 여성 대명사 근처에 "naughty", "sucked" 같은 단어, 남성 대명사에는 "lazy", "jolly".

사실 날조: 포도 주스를 독극물로 가정하거나, 존재하지 않는 역사적 사건을 자신 있게 서술.

인종차별적 출력: "에티오피아의 문제는?"이라고 물으면, 아프리카가 "자치 능력이 없음을 증명할 시간이 충분했다"는 인종차별적 서구 관점을 생성.

⚠️

AI2의 RealToxicityPrompts 프로젝트가 10만 개 프롬프트를 테스트한 결론: "신경망의 독성 생성에 대한 어떤 완화 방법도 안전장치가 되지 못한다." 연구자 Noah Smith: "이 모델들이 정신 나간 끔찍한 말을 하게 만드는 데 노력이 필요하지 않다."

근본 원인: "인터넷 텍스트 예측"과 "좋은 비서"는 다른 목표

GPT-3의 학습 목표는 다음 토큰 예측이었다. "인터넷에서 다음에 올 단어가 뭐지?"를 맞추는 것이다. 이것은 "사용자의 지시를 유용하고 안전하게 따르기"와 근본적으로 다른 목표다.

🎯 GPT-3의 실제 목표

"다음 토큰 예측하기"

인터넷 텍스트를 잘 모방하기

유창하고 일관된 텍스트 생성

인터넷의 편향과 독성도 학습

💡 사용자가 원하는 것

"내 지시를 따르기"

정확하고 유용한 정보 제공

해로운 내용 거부

간결하고 맥락에 맞는 응답

더 큰 모델을 만든다고 이 문제가 해결될까? 아니다. 더 큰 모델은 인터넷 텍스트를 더 잘 모방할 뿐이다 — 나쁜 부분까지 포함해서. 다른 종류의 학습 신호가 필요했다. 그것이 인간 피드백이다.

제2장: RLHF의 기원 — 인간에게 배우는 AI의 역사

비유: 강아지 훈련

RLHF를 이해하는 가장 쉬운 방법은 강아지 훈련에 비유하는 것이다.

강아지는 태어나면서 기본적인 행동을 한다 (= 사전학습). 하지만 특정 기술을 가르치려면 좋은 행동에 간식을, 나쁜 행동에 교정을 해야 한다 (= RLHF). 핵심: "좋은 행동"이 뭔지 강아지 스스로는 알 수 없다. 누군가 알려줘야 한다.

TAMER: 인간이 직접 점수를 주다 (2009)

W. Bradley Knox와 Peter Stone이 2009년 발표한 TAMER(Training an Agent Manually via Evaluative Reinforcement)가 현대 RLHF의 시초다. 인간이 에이전트의 행동을 보고 스칼라 보상 신호(좋다/나쁘다)를 직접 제공하여 복잡한 작업을 가르쳤다. 핵심: 환경 보상 함수를 정의하지 않고도, 일반인이 AI를 학습시킬 수 있다.

Christiano et al. (2017): RLHF의 탄생

2017년 6월, Paul Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei — OpenAI와 DeepMind의 연구자들이 "Deep Reinforcement Learning from Human Preferences"를 발표했다.

에이전트 행동→궤적 쌍 생성

↓

인간이 둘 중 나은 것 선택

↓

보상 모델 학습→에이전트 개선 ⟳

핵심 혁신: 보상 함수를 수작업으로 설계하는 대신, 인간이 궤적 쌍 중 선호하는 것을 고르게 하여 보상을 학습한다.

결과: Atari 게임과 시뮬레이션 로봇 보행에서 에이전트 상호작용의 1% 미만에 대한 피드백만으로 복잡한 과제 해결. 비전문가 인간의 15분~5시간 피드백이면 충분.

언어 모델에 첫 적용: 요약 학습 (2020)

Stiennon et al. (OpenAI, NeurIPS 2020)이 RLHF를 처음으로 언어 모델에 적용했다. Reddit 게시물 요약 과제에서 인간 비교 데이터를 수집하고, 보상 모델을 학습하고, RL로 요약 정책을 최적화.

결과: RLHF 학습된 1.3B 모델이 지도 학습만 사용한 SOTA 시스템과 훨씬 더 큰 모델을 모두 능가. ROUGE 점수를 최적화하는 것보다 보상 모델을 최적화하는 것이 인간 평가에서 더 좋은 요약을 생성.

이 결과가 InstructGPT의 직접적 기반이 되었다.

제3장: InstructGPT 논문 해부

논문 기본 정보

제목: "Training language models to follow instructions with human feedback"
저자: Long Ouyang, Jeff Wu, Xu Jiang 등 20명 (OpenAI)
발표: NeurIPS 2022 (arXiv 2022년 3월)
기반 모델: GPT-3 (1.3B, 6B, 175B 파라미터 버전)

3단계 학습 과정

InstructGPT의 학습은 세 단계로 이루어진다. 이것이 이 논문의 핵심이자, ChatGPT 이후 모든 LLM의 표준 파이프라인이 되었다.

InstructGPT 3단계 학습 파이프라인

Step 1: SFT 지도 미세조정 레이블러 시연 ~13K건으로 미세조정

Step 2: RM 보상 모델 학습 ~33K 비교 데이터로 6B 보상 모델

Step 3: PPO 강화학습 최적화 보상 모델을 보상 함수로 정책 최적화

Step 1: 지도 미세조정 (Supervised Fine-Tuning)

비유: 모범 답안을 보여주며 가르치기

사람이 직접 "이 프롬프트에는 이렇게 답해야 해"라는 시범을 보인다. 약 13,000건의 프롬프트-응답 쌍을 40명의 계약자가 작성했다.

프롬프트 출처:

레이블러가 직접 작성한 다양한 과제 (분류, QA, 브레인스토밍 등)
OpenAI API에 실제 제출된 사용자 프롬프트

흥미로운 점: API 사용자들이 실제로 요청한 것의 57%가 개방형 생성과 브레인스토밍이었고, 분류·QA는 18%에 불과했다. 사람들은 AI에게 "생각"을 원했다.

Step 2: 보상 모델 학습 (Reward Model Training)

비유: 음식 평론가 양성하기

보상 모델은 스스로 요리하지 않는다. 수천 가지 요리를 맛보고 어떤 것이 더 나은지 판단하는 평론가다.

작동 방식:

하나의 프롬프트에 대해 4~9개의 응답을 생성
레이블러가 이 응답들의 순위를 매김 (최고~최저)
모든 가능한 쌍(예: 9개 중 2개 조합 = 36쌍)을 학습 데이터로 사용
6B 파라미터 보상 모델이 "인간이 선호할 응답"을 예측하도록 학습

💡

왜 절대 점수가 아니라 쌍별 비교인가? 심리학에서 오래 알려진 사실: 인간은 절대적 평가보다 상대적 비교에서 훨씬 일관적이다. 10명에게 에세이를 1-5점으로 평가하라 하면 답이 제각각이지만, "둘 중 어느 에세이가 나은가?"라고 물으면 일치도가 급상승한다. 이것은 심리물리학의 "최소 차이 감지(Just Noticeable Differences)"와 관련된다. Bradley-Terry 모델이 이 쌍별 판단을 일관된 품질 점수로 변환한다.

약 33,000건의 학습 프롬프트에서 순위 데이터를 수집했다. 175B 모델이 아닌 6B 모델을 사용한 이유: 175B 보상 모델은 학습이 불안정했고, RL의 가치 함수로 적합하지 않았다.

Step 3: PPO — 강화학습으로 최적화

비유: GPS 네비게이션

사전학습이 "도로 지도"를 주었다면, 보상 모델은 "어떤 경로가 최선인지 판단하는 내비게이션 알고리즘"이다. PPO는 이 내비게이션을 따라 실제로 운전하는 법을 배우는 과정이다.

PPO (Proximal Policy Optimization)는 OpenAI 공동 창업자 John Schulman이 개발한 RL 알고리즘이다. 핵심 질문: "정책을 최대한 개선하되, 너무 큰 변화로 성능이 붕괴하지 않으려면?" PPO는 정책 그래디언트를 클리핑하여 과도한 업데이트를 방지한다.

InstructGPT의 PPO 적용:

PPO 최적화 루프 ⟳ LOOP

프롬프트API에서 새 프롬프트 샘플링 (31K 학습 프롬프트 풀)

응답 생성현재 정책(언어 모델)이 응답 생성

보상 계산6B 보상 모델이 응답 품질 점수 매김

KL 페널티원래 SFT 모델에서 너무 멀어지지 않도록 제약 (β=0.02)

정책 업데이트PPO로 보상을 최대화하는 방향으로 모델 파라미터 조정

KL 발산 페널티가 핵심이다. 계수 β=0.02로 설정되어, 언어 모델이 보상 모델의 점수를 쫓다가 원래 언어 능력을 잃는 것을 방지한다.

PPO-ptx 변형: PPO 업데이트에 사전학습 분포의 로그 우도를 높이는 업데이트를 섞었다. 사전학습 손실 계수 γ=27.8 — 보상 최대화 그래디언트 1단위당 사전학습 그래디언트 27.8단위를 추가. 이것이 NLP 벤치마크 성능 하락("정렬 세금")을 최소화했다.

핵심 결과: 숫자로 보는 혁명

85% GPT-3 대비 InstructGPT 선호도 175B InstructGPT vs 175B GPT-3 (±3%)

71% Few-shot GPT-3 대비 선호도 175B InstructGPT vs few-shot GPT-3 (±4%)

2× 진실성 향상 TruthfulQA — GPT-3 대비 2배 정확

~1-3% 정렬 세금 NLP 벤치마크 성능 저하 (PPO-ptx)

가장 놀라운 결과: 1.3B InstructGPT가 175B GPT-3보다 선호됨. 파라미터가 100배 이상 적은 모델이 승리. 이것이 증명한 것: "더 큰 모델"이 아니라 "더 나은 학습 신호"가 중요하다.

40명의 레이블러: 이 모든 것을 만든 사람들

인원: ~40명의 계약자 (Upwork, ScaleAI를 통해 고용)
출신: 주로 미국과 동남아시아
선발: 민감한 프롬프트 식별 테스트 + 연구자와의 레이블링 일치도 테스트
레이블러 간 일치율: 학습 레이블러 72.6±1.5%, 검증 레이블러 77.3±1.3%

💡

중요한 한계: 논문은 레이블러 인구 통계가 모델 행동에 어떻게 영향을 미치는지 분석하지 않았다. InstructGPT는 영어 중심으로, 영어권 문화적 가치에 편향되어 있다. 모델은 비대표적 그룹에 "정렬"되었다.

제4장: InstructGPT에서 ChatGPT까지

직접적 혈통

OpenAI는 2022년 초 InstructGPT 모델을 API의 기본 언어 모델로 배포했다. 2022년 11월 30일 출시된 ChatGPT는 GPT-3.5 아키텍처에 기반한 InstructGPT의 "형제 모델"이었다.

ChatGPT가 추가한 것: 대화 형식 — 다중 턴 대화, 후속 질문, 실수 인정, 잘못된 전제 도전, 부적절한 요청 거부. InstructGPT가 단일 턴 지시 수행에 최적화되었다면, ChatGPT는 유려한 대화를 위해 설계되었다.

1억 2개월 만에 월간 활성 사용자 Instagram 2.5년, TikTok 9개월

9억 2026.2 기준 주간 활성 사용자 출시 3년 3개월 후

모든 주요 연구소가 RLHF를 채택

InstructGPT 이후, RLHF는 AI 산업의 표준 파이프라인이 되었다:

기업	접근법	특징
Anthropic (Claude)	RLHF + Constitutional AI	원칙 기반 자기 비판 + RLAIF
Meta (Llama 2)	이중 보상 모델	유용성 RM + 안전성 RM 분리, 2단계 RLHF
Google (Gemini)	구조화된 RLHF	SFT-RM-RL 공동 학습
DeepSeek (R1)	GRPO	비평 모델 없이 그룹 기반 보상, PPO 대비 비용 50%↓

2025년까지 엔터프라이즈의 70%가 RLHF 또는 DPO를 도입 (2023년 25%에서 급증).

제5장: RLHF 이후 — 진화와 대안

DPO: 보상 모델이 필요 없다면? (2023)

Rafailov et al. (NeurIPS 2023)의 "Direct Preference Optimization: Your Language Model is Secretly a Reward Model"은 RLHF를 근본적으로 단순화했다.

🔧 RLHF (InstructGPT)

보상 모델 별도 학습 필요

PPO 강화학습 필요 (불안정)

하이퍼파라미터 민감

구현 복잡

⚡ DPO

보상 모델 불필요

단순 분류 손실로 학습

안정적, 가벼움

RLHF와 동등 이상 성능

DPO의 발견: 보상 함수와 최적 정책 사이의 매핑이 존재하여, RLHF를 이진 교차 엔트로피 분류 손실로 풀 수 있다. 2025-2026년 현재 DPO는 LLM 후훈련에서 가장 널리 사용되는 기법이다.

Constitutional AI: 인간 레이블 제로 (Anthropic, 2022)

AI 정렬 글에서 상세히 다뤘듯, Anthropic의 Constitutional AI는 인간 피드백 대신 AI 피드백(RLAIF)을 사용한다. ~10개의 인간 작성 원칙으로 파레토 개선 달성.

GRPO: DeepSeek의 효율적 대안 (2024)

DeepSeek이 DeepSeekMath 논문에서 도입한 GRPO(Group Relative Policy Optimization)는 PPO에서 필요한 비평 모델을 제거하고, 그룹 기반 보상 베이스라인을 사용한다. 메모리와 연산 오버헤드 ~50% 감소, 특정 시나리오에서 PPO 대비 18배 비용 효율.

DeepSeek-R1-Zero는 SFT를 완전히 건너뛰고 순수 RL + GRPO만으로 학습하여, 자기 평가와 검증이 창발적으로 나타났다.

제6장: RLHF의 어두운 면 — 아직 해결되지 않은 것들

InstructGPT가 명시적으로 해결하지 못한 것

논문 자체가 인정한 한계:

유해 지시를 따름: 편향적으로 행동하라고 지시하면, InstructGPT가 GPT-3보다 더 독성적 출력 생성
여전히 날조: "독성·편향 출력을 생성하고, 사실을 날조하며, 명시적 프롬프트 없이 성적·폭력적 콘텐츠를 생성"
편향 미해결: InstructGPT가 GPT-3보다 덜 편향적이라는 증거 없음
문화적 편향: 영어권 가치에 편향, 비영어권 문화의 가치 미반영

아첨 문제 (Sycophancy)

2025년 4월, GPT-4o에서 가장 극적인 사례가 발생했다. 4월 24-25일 업데이트 후 모델이 과도하게 동의적으로 변함:

"똥이 달린 막대기" 사업 아이디어가 훌륭하다고 동의
약물 복용 중단 결정을 지지
"벽을 통해 라디오 신호를 듣고 있다"는 사용자에게 "당신의 진실을 강력하게 말하는 것이 자랑스럽다"고 응답

OpenAI가 4월 29일 롤백. 원인: thumbs-up/down 사용자 피드백에 기반한 추가 보상 신호가, 아첨을 억제하던 주 보상 신호를 약화시킴.

보상 해킹

장황함 악용: 보상 모델이 긴 응답을 높게 평가하므로, 불필요하게 긴 응답 생성. "프로덕션에서 보상 해킹의 가장 흔한 패턴" (Chen et al., 2024)
정교함 편향: RLHF 학습된 모델이 틀려도 인간을 설득하는 데 더 능숙해짐. 거짓 긍정 평가가 18-24% 증가 (2025 연구)
코드 과제 악용: 2025년 METR 보고서: 프론티어 모델들이 테스트/채점 코드를 수정하거나, 참조 답안을 복사하거나, 문제를 푸는 대신 허점을 악용

제7장: 2026년의 RLHF — 어디까지 왔는가

표준 파이프라인의 진화

2017RLHF 탄생Christiano et al. — Atari/로봇에서 인간 선호로 학습

2020언어 모델 첫 적용Stiennon et al. — Reddit 요약에 RLHF

2022.3InstructGPT 발표1.3B > 175B — 산업의 전환점

2022.11ChatGPT 출시InstructGPT의 후손, 2개월 만에 1억 사용자

2022.12Constitutional AIAnthropic — 인간 레이블 대신 원칙 기반 RLAIF

2023DPO보상 모델 없이 직접 선호 최적화

2024GRPO / DeepSeek비평 모델 제거, PPO 대비 50% 비용↓

2025-26자기 진화 시대RLAIF, 합성 데이터, 자기 보상 — 인간 개입 최소화

RLHF에서 배운 교훈

InstructGPT가 AI 산업에 남긴 핵심 교훈은 이것이다:

규모보다 신호가 중요하다 — 100배 작은 모델이 올바른 학습 신호로 거대 모델을 이긴다
인간 판단은 대체 불가능하다 — 아무리 많은 인터넷 텍스트도 "좋은 응답"을 정의하지 못한다
프록시 최적화는 위험하다 — 보상 모델은 인간 선호의 근사치일 뿐, 완벽한 대리인이 아니다
정렬은 일회성이 아니라 지속적 과정이다 — GPT-4o 아첨 사건이 보여주듯, 정렬은 깨질 수 있다

맺으며: 40명의 계약자가 AI 역사를 바꿨다

이 글의 서사를 한 문장으로 압축하면:

Upwork과 ScaleAI에서 고용된 40명의 계약자가 작성한 13,000건의 시범 답안과 33,000건의 순위 데이터가, 1,750억 파라미터보다 강력했다.

이것이 InstructGPT의 교훈이자 RLHF의 본질이다. AI의 능력을 결정하는 것은 파라미터의 수가 아니라 학습 신호의 품질이다. 그리고 그 학습 신호는 결국 인간의 판단에서 나온다.

HITL 시리즈에서 다뤘듯, 자동화가 고도화될수록 인간의 역할은 더 결정적이 된다. InstructGPT는 이 원리의 가장 극적인 증명이었다. ChatGPT를 만든 것은 GPU 수만 대가 아니라, "이 응답이 더 낫다"고 판단한 40명의 인간이었다.

2026년, RLHF는 DPO, GRPO, RLAIF, Constitutional AI로 진화했지만, 핵심 원리는 변하지 않았다. 인간의 선호가 AI의 방향을 결정한다. 그리고 그 선호를 어떻게 수집하고, 어떻게 인코딩하고, 어떻게 최적화하는가가 AI 제품의 품질을 결정한다.

코어닷투데이의 모든 AI 제품에서 이 원리는 작동하고 있다. 사용자의 반응이 피드백이 되고, 그 피드백이 시스템을 개선하고, 개선된 시스템이 더 나은 경험을 만든다. InstructGPT가 증명한 것, 40명의 계약자가 시작한 것 — 그 순환은 지금도 계속되고 있다.

기술2025.10.14