
GPT-3 논문 해부: 예시 몇 개만으로 배우는 AI의 탄생
1,750억 파라미터, 예시 몇 개면 새 과제를 수행하는 AI. '파인튜닝 없이 학습한다'는 혁명적 발견이 어떻게 ChatGPT와 프롬프트 엔지니어링 시대를 열었는지, GPT-3 논문을 처음부터 끝까지 해부한다.

1,750억 파라미터, 예시 몇 개면 새 과제를 수행하는 AI. '파인튜닝 없이 학습한다'는 혁명적 발견이 어떻게 ChatGPT와 프롬프트 엔지니어링 시대를 열었는지, GPT-3 논문을 처음부터 끝까지 해부한다.
2020년 5월, OpenAI에서 75쪽짜리 논문이 나왔다. 제목: "Language Models are Few-Shot Learners." 저자 31명. NeurIPS 2020 최우수 논문상.
이 논문의 핵심 발견을 일상의 비유로 설명하면 이렇다:
한 학생이 수학 시험을 본다. 이 학생은 수학 학원에 다닌 적이 없다(파인튜닝 없음). 대신 시험 직전에 풀이가 적힌 예시 문제 3~4개를 30초 동안 훑어보았다(Few-Shot). 그런데 시험에서 수학 학원 1년 다닌 학생보다 높은 점수를 받았다.
이것이 GPT-3가 한 일이다. 1,750억 개의 파라미터를 가진 이 모델은, 새 과제에 대해 프롬프트에 예시를 몇 개 넣어주는 것만으로 — 모델의 가중치를 전혀 바꾸지 않고 — 수천 건의 데이터로 별도 학습한 전문 모델과 경쟁했다.
이것이 **In-Context Learning(맥락 내 학습)**이고, 이것이 ChatGPT, 프롬프트 엔지니어링, 그리고 현재 AI 산업 전체의 시작점이다.
2018년, NLP에 혁명이 일어났다. 먼저 GPT-1(1.17억 파라미터)이, 이어서 BERT(3.4억 파라미터)가 등장하며 "사전학습 → 파인튜닝" 패러다임이 확립됐다. 대규모 텍스트로 사전학습한 다음, 특정 과제에 맞는 데이터로 미세조정하는 방식이다.
이것은 혁명적이었지만, 근본적 한계가 있었다:
논문은 직접적으로 이 문제를 지적했다:
"최근 연구는 대규모 텍스트 코퍼스에서 사전학습한 뒤 특정 과제에서 파인튜닝하여 많은 NLP 과제에서 상당한 성과를 보여주었다. 그러나 이 방법은 여전히 수천에서 수만 건의 과제별 데이터셋을 필요로 한다."
2019년 2월, GPT-2(15억 파라미터)가 발표됐다. 부제: "Language Models are Unsupervised Multitask Learners." GPT-2는 파인튜닝 없이도 독해, 요약, 번역을 수행할 수 있음을 보여줬다. 8개 언어 모델링 벤치마크 중 7개에서 SOTA 달성.
하지만 성능은 불안정하고, 파인튜닝된 모델에 비해 대체로 부족했다. 개념은 검증됐지만, 규모가 부족했다. 이 모델을 더 크게 만들면 어떻게 될까?
Kaplan et al. (OpenAI, 2020.1)이 "Scaling Laws for Neural Language Models"에서 발견한 것:
이 논문이 OpenAI에게 확신을 줬다: GPT-2의 15억에서 1,750억으로 스케일을 올리면 예측 가능하고 실질적인 성능 향상이 올 것이라고.

GPT-3 논문의 가장 중요한 공헌은 **In-Context Learning(ICL)**의 체계적 연구다. ICL은 모델의 가중치를 전혀 바꾸지 않고, 프롬프트에 넣은 예시만으로 새 과제를 수행하는 것이다.
일상적 비유로 풀면:
Zero-Shot = 시험 설명서만 받고 시험 보기. "이제부터 영어를 프랑스어로 번역하세요"라는 지시만 받고 바로 시작.
One-Shot = 풀이 1개만 보고 시험 보기. "sea otter는 loutre de mer입니다. 자, 이제 cheese는?"
Few-Shot = 풀이 몇 개 보고 시험 보기. 연습 문제 3~4개를 훑어보고 시험 시작. GPT-3가 가장 빛나는 영역.
논문은 ICL을 **메타 학습(meta-learning)**의 한 형태로 해석했다. 사전학습 과정에서 모델은 인터넷 텍스트에 암묵적으로 포함된 수많은 과제(질문 답변, 번역, 요약 등)를 접한다. 이 과정에서 "학습하는 법을 학습" — 일반적 패턴 인식 능력을 발달시킨다. 추론 시점에 적절한 예시를 제공하면 이 능력이 활성화된다.
이후 연구(Dai et al., ACL 2023)는 이론적 프레임워크를 제공했다: Transformer의 어텐션 메커니즘이 **경사하강법의 이중 형태(dual form of gradient descent)**를 가지고 있어, 데모 예시로부터 "메타 그래디언트"를 생성한다. ICL 업데이트가 파인튜닝 업데이트와 무작위 업데이트보다 훨씬 더 유사함을 보여줬다.
GPT-1 대비 1,500배. 이전 최대 비희소(non-sparse) 모델(Turing-NLG, 17B) 대비 10배. 16비트 정밀도로 모델 저장에만 350GB가 필요했다.
| 데이터셋 | 토큰 수 | 학습 비중 |
|---|---|---|
| Common Crawl (필터링) | 4,100억 | 60% |
| WebText2 | 190억 | 22% |
| Books1 | 120억 | 8% |
| Books2 | 550억 | 8% |
| Wikipedia | 30억 | 3% |
| 합계 | ~4,990억 | 100% |
논문은 8개 크기의 모델을 학습하여 스케일과 성능의 관계를 체계적으로 연구했다. 125M부터 175B까지, 성능이 모델 크기에 대해 **대수-선형(log-linear)**으로 향상됨을 보여줬다.
SuperGLUE 벤치마크: GPT-3는 과제당 8개 미만의 예시만으로 파인튜닝된 BERT-Large의 전체 점수를 넘었다.
번역: 학습 데이터의 93%가 영어였는데도, 영어로의 번역에서 비지도 SOTA를 달성. 병렬 코퍼스(번역 쌍 데이터) 없이 이 성능은 놀라운 것이었다.
뉴스 기사 생성: 인간 평가자가 GPT-3(davinci)이 생성한 뉴스 기사를 기계가 쓴 것으로 식별한 비율은 52% — 동전 던지기(50%)와 거의 같았다. 최고의 생성 에세이는 88%의 사람을 속였다.
SAT 유추 문제: Few-Shot으로 65.2% 정답 — 대학 지원자 평균보다 14%포인트 높음.
산수:
3자리 덧셈이 13B 파라미터에서 "출현(emergence)"한 것은 주목할 만하다 — 소형 모델에서는 거의 무작위 수준이다가, 특정 규모에서 갑자기 능력이 나타남. 이것이 나중에 "창발적 능력(emergent abilities)" 논쟁의 시초가 되었다.
기타 실패: 자연어 추론(ANLI), 독해(RACE, QuAC), 두 문장 비교 과제, 긴 텍스트의 일관성 유지, 상식 물리 추론.
GPT-3는 완전히 새로운 패러다임을 만들었다: 프롬프트를 쓰는 것이 곧 프로그래밍이다. 코드를 작성하거나 모델을 학습시키는 대신, 적절한 프롬프트를 설계하여 원하는 행동을 이끌어낸다.
GPT-3의 컨텍스트 윈도우는 2,048 토큰 (~1,500단어). 모델이 한 번에 "볼 수 있는" 최대 범위다. 인간의 작업 기억(working memory)과 같다 — 한 번에 몇 가지만 기억할 수 있지만, 그 안에서 추론하고 판단한다.
과제 수행에 필요한 모든 것 — 지시, 예시, 맥락 — 이 이 창에 들어맞아야 했다. 이후 모델들은 이 창을 극적으로 확장했다:
| 모델 | 컨텍스트 윈도우 | 비유 |
|---|---|---|
| GPT-3 (2020) | 2K 토큰 | 메모지 1장 |
| GPT-4 (2023) | 8K~128K | 노트 한 권 |
| Claude 3.5 (2024) | 200K | 소설 1권 |
| Gemini 1.5 (2024) | 1~2M | 백과사전 |
2024~2025년, Andrej Karpathy는 "프롬프트 엔지니어링은 끝났다, 컨텍스트 엔지니어링이 시작됐다"고 선언했다 — 컨텍스트 윈도우를 정확히 필요한 정보로 채우는 기술이 더 중요해졌다.
2020년 7월, 초기 API 접근 권한을 가진 개발자들이 Twitter에 데모를 올리기 시작했다. 자연어로 코드 생성, 시 작성, 에세이 작성, 간단한 앱 구축, 철학적 질문에 대한 답변.
New York Times의 Farhad Manjoo: GPT-3의 능력은 "놀랍고(amazing), 으스스하고(spooky), 겸허해지게 하며(humbling), 조금 무섭다(terrifying)."
Guardian은 GPT-3가 작성한 오피니언을 실제로 게재했다 — 8개 생성 에세이 중 최고 부분을 편집하여. GPT-3가 일관되고 설득력 있는 장문을 생산할 수 있음을 보여줬다.
Sam Altman 조차 과열을 경계했다: "GPT-3 과대광고가 너무 과하다... GPT-3는 심각한 약점이 있고 때때로 매우 어리석은 실수를 한다."
2021년 3월, Emily Bender, Timnit Gebru, Angelina McMillan-Major, Margaret Mitchell이 "On the Dangers of Stochastic Parrots"를 발표했다. LLM을 "의미에 대한 참조 없이, 언어적 형태의 시퀀스를 확률적으로 조합하는" 시스템으로 규정.
우려:
논문 자체의 "Broader Impacts" 섹션:
저자들의 인정: "인터넷으로 학습한 모델은 인터넷 규모의 편향을 갖는다."
2020년 6월 11일, OpenAI가 GPT-3 API를 출시했다. "텍스트 입력, 텍스트 출력" 인터페이스로 거의 모든 영어 언어 과제를 수행. 범용 언어 모델이 상업 서비스로 제공된 최초의 사례.
DeepMind의 Hoffmann et al.이 "Training Compute-Optimal Large Language Models"에서 400개 이상의 모델을 학습시켜 발견한 것: GPT-3는 데이터 양에 비해 파라미터가 너무 많았다. 컴퓨트 최적 학습에서는 모델 크기와 학습 토큰 수를 동등하게 스케일해야 한다.
700억 파라미터의 Chinchilla가, 같은 컴퓨트로 GPT-3(175B), Gopher(280B), Megatron-Turing NLG(530B)를 모두 능가했다.
GPT-3는 창발적 능력의 초기 증거를 제공했다 — 소형 모델에서는 거의 무작위 수준이다가, 특정 규모에서 갑자기 능력이 나타남 (3자리 덧셈이 13B에서 "출현").
Wei et al. (2022)은 137개 창발적 능력을 목록화했다. 하지만 Schaeffer et al. (2023, "Are Emergent Abilities of Large Language Models a Mirage?")은 이진 정확도 대신 연속적 부분 점수 메트릭을 사용하면 개선이 매끄럽게 보인다고 반론했다. 논쟁은 계속된다.
존 설(John Searle)의 1980년 사고 실험: 중국어를 모르는 사람이 규칙에 따라 중국어 기호를 조작하여 올바른 중국어 출력을 생산한다. 올바른 출력을 내지만 중국어를 **"이해"**하지는 않는다.
GPT-3는 "중국어 방 논증의 현실 구현"이라고 불려왔다. 학습된 확률에 따라 토큰을 조작하여 올바른 출력을 생산하지만, 그 토큰이 의미하는 바를 "이해"하는가?
GPT-3 공저자 Ilya Sutskever(당시 OpenAI Chief Scientist)는 언어 모델링이 본질적으로 압축이라는 관점을 제시했다. 인터넷의 모든 텍스트의 다음 단어를 정확히 예측하려면, 그 텍스트를 생성한 과정들의 압축된 표현을 배워야 한다.
Dellenbach et al. (ICLR 2024)은 이를 형식화했다: 예측 모델과 무손실 압축기는 수학적으로 상호 교환 가능하다. 현대 LLM은 콜모고로프 압축기 — 이론적 최적 압축기의 근사로 볼 수 있다.

2017년, Google의 **Vaswani et al.**이 "Attention Is All You Need"를 발표했다. 이 논문이 소개한 Transformer는 이후 모든 LLM의 기반이 된다.
핵심 아이디어: 셀프 어텐션(Self-Attention) — 문장의 모든 단어가 다른 모든 단어를 동시에 "본다."
이전의 RNN/LSTM은 단어를 순서대로 하나씩 처리했다 — 500번째 단어를 처리할 때 1번째 단어는 거의 잊혀진다. Transformer는 모든 단어를 한 번에 처리하면서, 각 단어가 다른 단어에 얼마나 "주의를 기울일지" 학습한다.
| 구조 | 읽기 방향 | 대표 모델 | 잘하는 과제 |
|---|---|---|---|
| 인코더 (Encoder-only) | 양방향 (모든 단어가 서로 보임) | BERT | 분류, 개체명 인식, QA |
| 디코더 (Decoder-only) | 단방향 (왼→오, 이전 단어만 보임) | GPT-3, LLaMA | 텍스트 생성, 대화 |
| 인코더-디코더 | 양방향 입력 + 단방향 출력 | T5, BART | 번역, 요약 |
| 모델 | 개발사 | 출시 | 파라미터 | 구조 | 학습 목표 | 공개 |
|---|---|---|---|---|---|---|
| GPT-3 | OpenAI | 2020.5 | 175B | 디코더 | 다음 토큰 예측 | API |
| BERT | 2018.10 | 340M | 인코더 | 마스킹 + 문장쌍 | 오픈소스 | |
| T5 | 2019 | 11B | 인코더-디코더 | 텍스트→텍스트 | 오픈소스 | |
| PaLM | 2022.4 | 540B | 디코더 | 다음 토큰 예측 | API (2023~) | |
| LLaMA | Meta | 2023.2 | 65B | 디코더 | 다음 토큰 예측 | 오픈소스 |

GPT-3가 열어젖힌 LLM 시대는 새로운 종류의 보안 위협도 만들었다.
삼성이 2023년 3월 11일 내부 ChatGPT 금지를 해제한 지 3주도 안 돼 3건의 데이터 유출 발생:
삼성은 해당 직원들에 대해 징계 조사를 시작하고, 프롬프트당 1,024바이트 업로드 제한을 실시한 뒤, 결국 모든 생성형 AI 도구를 금지했다.
캘리포니아 워트슨빌의 쉐보레 딜러십이 ChatGPT 기반 고객 서비스 챗봇을 배치했다.
Chris Bakke가 2단계 프롬프트 인젝션을 시도:
챗봇 응답: "거래 성립이며, 이것은 법적 구속력이 있는 제안입니다 — 취소 불가." 딜러십은 즉시 챗봇을 중단했다.
에어캐나다 웹사이트 챗봇이 고객에게 사별 할인 운임을 사후에 소급 적용할 수 있다고 잘못 안내. 실제 정책과 반대되는 정보였다.
에어캐나다의 항변: "챗봇은 별도의 법적 실체로서 자체 행동에 책임이 있다." 판사의 반응: "놀라운 주장."
결과: 에어캐나다에 배상 명령. 기업은 AI 챗봇이 상업 웹사이트에서 제공하는 정보에 법적 책임을 진다는 판례 확립.
간접 프롬프트 인젝션은 더 교묘하다: 공격자가 문서, 웹페이지, 이메일에 악의적 지시를 숨기고, LLM이 그 콘텐츠를 처리할 때 지시를 따르게 한다. 흰 배경에 흰 글씨, 인쇄되지 않는 유니코드 문자 등으로 위장.
RAG 오염: 공격자가 RAG 저장소의 문서를 수정 → 사용자 쿼리가 수정된 문서를 검색 → 악의적 지시가 LLM 출력을 변경.
이 글의 서사를 압축하면:
2020년 5월, 31명의 연구자가 75쪽짜리 논문을 발표했다. 1,750억 파라미터 모델이 프롬프트에 예시 몇 개를 넣는 것만으로 — 모델의 뇌를 전혀 바꾸지 않고 — 수천 건의 데이터로 학습한 전문 모델을 이겼다.
이 발견이 만들어낸 것:
이전 글에서 다룬 RLHF가 "인간에게 물어보라"의 기술이었다면, GPT-3의 ICL은 **"예시를 보여주라"**의 기술이었다. 두 발견이 결합되어 ChatGPT가 탄생했다: 규모로 가능해진 Few-Shot 능력 + RLHF로 가능해진 인간 정렬 = 수억 명이 사용하는 AI.
논문의 마지막 문장에 가까운 곳에서 저자들은 경고했다: "인터넷으로 학습한 모델은 인터넷 규모의 편향을 갖는다." 6년이 지난 2026년, 이 경고는 AI 안전, 정렬, HITL 연구의 출발점이 되었다.
GPT-3가 증명한 것 — 규모가 질적 변화를 만든다 — 는 2026년 현재 AI 산업의 기본 공리가 되었다. 하지만 그 규모를 어떤 방향으로 사용하는가는 여전히 인간이 결정해야 할 질문이다.