추론 모델Gemini Deep ThinkOpenAI o3Claude OpusDeepSeek R1Chain-of-Thought테스트타임 컴퓨트

추론 모델 삼국지: Gemini Deep Think, OpenAI o3, Claude Opus — 누가 이기고 있나

GPT-4 시대의 '크기 경쟁'은 끝났다. 2025년부터 AI는 '생각하는 시간'으로 경쟁한다. Gemini Deep Think의 IMO 금메달, o3의 ARC-AGI 인간 초과, Claude의 SWE-bench 지배 — 추론 모델 전쟁의 전황을 분석한다.

코어닷투데이2026-01-1228분

들어가며: AI가 "생각"하기 시작했다

2024년 9월 12일, OpenAI가 o1을 발표했다. 기존 모델과 결정적으로 다른 점이 하나 있었다 — 답을 내기 전에 "생각"한다.

기존 GPT-4는 질문을 받으면 즉시 토큰을 생성하기 시작한다. 마치 시험에서 문제를 읽자마자 답을 쓰기 시작하는 학생과 같다. 빠르지만, 복잡한 문제에서는 논리적 실수를 범한다.

o1은 다르다. 답을 내기 전에 수천 개의 "추론 토큰(reasoning tokens)"을 내부적으로 생성한다. 문제를 분해하고, 여러 접근법을 탐색하고, 중간 결과를 검증하고, 실수를 수정한 뒤에야 최종 답을 내놓는다. 문제를 읽고, 연습장에 풀이 과정을 쓰고, 검산한 뒤 답을 쓰는 학생이다.

이 단순한 아이디어가 AI의 판도를 완전히 바꿨다. 6개월 만에 Google, Anthropic, DeepSeek까지 모두 "생각하는 모델"을 내놓았고, 2026년 3월 현재 모든 최전선 모델이 추론 능력을 탑재하고 있다.

이 글에서는 추론 모델이 왜 등장했고, 어떻게 작동하며, 누가 이기고 있는지를 추적한다.

제1장: 왜 "생각하는 AI"가 필요했나

크기의 벽

2023년 3월, GPT-4가 출시되었을 때 패러다임은 단순했다 — 모델을 크게, 데이터를 많이. Chinchilla 스케일링 법칙이 길을 안내했고, GPU를 더 쌓으면 성능이 올라갔다.

그런데 2024년에 이르러 수확체감의 벽이 보이기 시작했다. 모델을 2배 키우면 성능은 10%만 오르는 상황. 학습 비용은 기하급수적으로 증가하는데, 성능 향상은 점점 둔해졌다. GPT-5의 학습이 기대에 미치지 못한다는 루머가 업계를 돌았다.

새로운 스케일링 축: 테스트 타임 컴퓨트

OpenAI가 발견한 탈출구는 의외로 단순했다.

"학습 시간에 더 많이 투자하는 대신, 추론 시간에 더 많이 투자하면 어떨까?"

기존 접근: 학습에 $100M 더 쓰면 → 모든 질문에 조금씩 더 똑똑해진다. 새로운 접근: 추론에 10초 더 쓰면 → 어려운 질문에 크게 더 똑똑해진다.

이것이 테스트 타임 컴퓨트 스케일링(test-time compute scaling)이다. 학습 스케일링보다 약 30배 더 효율적이라는 분석도 있다. 왜? 쉬운 질문에는 적게, 어려운 질문에만 많이 투자할 수 있으니까.

제2장: 추론 모델은 어떻게 작동하는가

체인 오브 소트(Chain-of-Thought)의 자동화

2022년, Google의 Jason Wei 등이 "Chain-of-Thought Prompting"을 발표했다. "단계별로 생각해봐(Let's think step by step)"라고 프롬프트에 쓰면 LLM의 추론 능력이 향상된다는 발견이었다.

추론 모델은 이것을 자동화하고 극대화한 것이다. 사용자가 "단계별로 생각해"라고 쓰지 않아도, 모델이 스스로 수천 단계의 사고 과정을 거친다.

기존 LLM vs 추론 모델

기존 LLM (GPT-4o)	추론 모델 (o3, Deep Think)
한 번의 순전파로 답 생성	답 전에 수천 토큰의 "사고" 과정
모든 질문에 동일한 연산량	난이도에 따라 가변적 연산량
학습으로만 성능 결정	추론 시간으로도 성능 향상 가능
모델 크기 + 데이터로 스케일	추가로 테스트 타임 컴퓨트로 스케일
빠르지만 추론 오류 가능	느리지만 오류를 잡아냄

비유: 체스 엔진

체스 엔진(Stockfish 등)은 수를 두기 전에 수백만 개의 경우의 수를 탐색한다. 탐색 시간을 더 주면 더 좋은 수를 찾는다. 추론 모델도 동일한 원리다 — "생각 시간"을 더 주면 더 좋은 답을 찾는다.

제3장: 삼국지 — 세 진영의 전쟁

OpenAI: o-시리즈의 선봉

o1 (2024년 9월): 최초의 상업적 추론 모델. 대규모 강화학습(RL)으로 Chain-of-Thought를 자동 생성하도록 학습. AIME 83%, GPQA ~78% (인간 PhD 수준 초과).

o3 (2025년 4월): o1의 진화. ARC-AGI에서 87.5% — 인간 기준(85%)을 최초로 초과. GPQA Diamond 87.7%, AIME 2025 88.9%, SWE-bench 69.1%. 어려운 실세계 문제에서 o1 대비 실수 20% 감소.

o4-mini (2025년 4월): 비용 효율 추론 모델. AIME 2025 92.7%, 저렴한 가격에 놀라운 추론 성능.

Google: Gemini의 역습

Gemini 2.5 Pro (2025년 3월): 출시와 동시에 Chatbot Arena 모든 카테고리 1위. 이전 1위 대비 +40 Elo — 역대 최대 점프. WebDev Arena에서 147 Elo 차이로 1위.

Gemini 2.5 Flash (2025년 5월): 최초의 "사고하는 Flash 모델." 비용 효율적이면서도 사고 기능 탑재. 사고 예산(thinking budget) 기능으로 개발자가 연산량을 정밀 제어.

Gemini 2.5 Deep Think (2025년 8월): 병렬 사고 방식 — 여러 풀이 경로를 동시에 탐색하고 결합. AIME 2025 99.2%. IMO 2025에서 금메달 수준(35/42점) 달성 — 자연어만으로, 4.5시간 내에.

AIME 2025 수학 추론 — 주요 모델 비교

Gemini Deep Think

99.2%

o4-mini

92.7%

OpenAI o3

88.9%

DeepSeek R1-0528

87.5%

Gemini 2.5 Pro

86.7%

Claude Sonnet 4

76.3%

Anthropic: Claude의 코딩 지배

Anthropic의 전략은 다르다 — 범용 추론보다 실세계 코딩에 집중.

Claude Opus 4 (2025년 5월): 최대 64,000 토큰의 확장 사고(Extended Thinking). SWE-bench 72.5%.

Claude Sonnet 4 (2025년 5월): SWE-bench 72.7% (Opus보다 높음!). 가격은 1/5. 도구 호출 사이에도 사고하는 "인터리빙 사고(interleaved thinking)" 도입.

Claude Sonnet 4.5 (2025년 말): SWE-bench 77.2% (병렬 테스트 타임 컴퓨트 시 82%). OSWorld 61.4%.

Claude Opus 4.6 (2026년 초): 100만 토큰 컨텍스트. 2026년 3월 기준 Chatbot Arena 텍스트 부문 1위 (1504 Elo).

SWE-bench Verified (실세계 소프트웨어 엔지니어링)

Claude Opus 4.5

80.9%

Claude Sonnet 4.6

79.6%

Claude Sonnet 4.5

77.2%

Claude Opus 4

72.5%

OpenAI o3

69.1%

Gemini 2.5 Pro

63.8%

DeepSeek: 오픈소스의 습격

DeepSeek R1 (2025년 1월): 순수 강화학습(RL)으로만 학습한 추론 모델. MIT 라이선스로 완전 공개. o1급 성능을 95% 낮은 비용으로 달성. 1개월 만에 HuggingFace에서 500만+ 다운로드, 700개+ 파생 모델. 1월 27일 미국 주식시장 급락을 촉발 — 중국 AI 경쟁력에 대한 공포.

DeepSeek R1-0528 (2025년 5월): AIME 87.5% (70% → 87.5%), GPQA 81% (71.5% → 81%), SWE-bench 57.6% (49.2% → 57.6%). o3와 사실상 대등한 가장 강력한 오픈소스 추론 모델.

제4장: WebDev Arena — Gemini의 홈런

WebDev Arena란?

WebDev Arena는 LMArena(구 LMSYS)가 운영하는 웹 개발 능력 평가 벤치마크다. 작동 방식:

사용자가 웹 개발 프롬프트를 제출 (예: "투두 리스트 앱을 만들어줘")
익명의 두 모델이 각각 완전한 웹 앱을 생성
사용자가 블라인드 평가 — 어떤 모델인지 모른 채 더 나은 결과에 투표
Bradley-Terry 모델로 Elo 점수 산출

2026년 3월 기준 209,727표, 56개 모델 평가 완료.

Gemini 2.5 Pro의 WebDev Arena 1위

Gemini 2.5 Pro는 2025년 3월 출시 직후 WebDev Arena에서 147 Elo 차이로 1위에 올랐다. 이전 1위는 Claude 3.7 Sonnet이었다.

왜 Gemini가 웹 개발에서 강한가?

사고 기능: 복잡한 멀티파일 웹 앱을 계획하는 데 유리
시각적 감각: "시각적으로 매력적인 웹 앱"을 생성하는 능력에서 높은 평가
에이전틱 코드: Google이 에이전틱 코드 애플리케이션과 코드 변환에 특화 최적화

프롬프트 카테고리: 웹사이트 디자인(15.3%), 게임 개발(12.1%), 클론 개발(11.6%)이 상위 3개.

제5장: 핵심 벤치마크 총정리 (2025~2026)

GPQA Diamond: 인간 PhD를 넘어서다

GPQA(Graduate-level Google-Proof Questions)는 PhD 수준의 과학 질문이다. 인간 전문가 정확도: 69.7%.

GPQA Diamond — AI가 인간 전문가를 넘다

인간 PhD 전문가

69.7%

o1 (2024.9)

~78%

Gemini 2.5 Pro (2025.3)

84.0%

o3 (2025.4)

87.7%

2024년 11월 39%였던 점수가 18개월 만에 87.7%까지 도달. 인간 전문가를 18%p 초과.

IMO 금메달: 수학 올림피아드의 정상

2025년 7월, Gemini Deep Think의 연구 버전이 IMO 2025에서 6문제 중 5문제를 완벽하게 풀어 35/42점 — 금메달 수준. 전 세계 엘리트 수학 영재 상위 약 8%에 해당하는 성적이다.

주목할 점: 자연어로만 풀이를 생성했다. 이전 AlphaProof(2024)는 Lean 같은 형식 증명 언어로 번역이 필요했다. Deep Think는 그냥 인간처럼 풀이를 서술했다.

Chatbot Arena 종합 순위 (2026년 3월)

순위	모델	Elo
1	Claude Opus 4.6	1504
2	Gemini 3.1 Pro Preview	1500
3	Claude Opus 4.6 (thinking)	1500
4	Grok 4.20 beta1	1493
5	Gemini 3 Pro	1485

540만+ 투표, 323개 모델.

제6장: 사고 예산 — "얼마나 오래 생각할까"를 조절하다

Google의 Thinking Budget

Gemini 2.5의 가장 실용적인 혁신 중 하나는 사고 예산(thinking budget) 기능이다.

thinkingBudget: 0 → 사고 완전 비활성. 빠르고 저렴.
thinkingBudget: -1 → 동적 사고. 모델이 문제 난이도에 따라 자동 조절.
thinkingBudget: 10000 → 정확히 10,000 토큰까지 사고. 개발자가 비용과 품질을 정밀 제어.

실무 가이드:

단순 예/아니오 질문 → 예산 0 (사고 불필요)
일반 혼합 태스크 → 예산 -1 (자동 조절)
수학, 코딩, 계획 수립 → 예산 높게
비용 민감 서비스 → Flash 모델 + 낮은 예산

비용 비교

추론 모델 비용 (100만 출력 토큰당, USD)

DeepSeek R1 (API)

$2.19

o4-mini

$4.40

Gemini 2.5 Pro

$10.00

Claude Sonnet 4

$15.00

OpenAI o3

~$40.00

Claude Opus 4

$75.00

주의: 사고 토큰은 출력 토큰으로 과금된다. 복잡한 수학 문제에서 모델이 10,000+ 사고 토큰을 사용하고 최종 답은 200토큰인 경우, 실제 비용의 98%가 "생각하는 데" 들어간다.

제7장: 실무 가이드 — 언제 어떤 모델을 쓸 것인가

용도별 추천

용도	추천 모델	이유
일상 대화, 요약	GPT-4o, Gemini Flash (사고 OFF)	빠르고 저렴, 사고 불필요
복잡한 수학	Deep Think, o3	AIME 99%+, IMO 금메달
실세계 코딩 (SWE)	Claude Sonnet 4.5/4.6	SWE-bench 1위, Claude Code
웹 개발	Gemini 2.5 Pro	WebDev Arena 1위
비용 민감 추론	o4-mini, DeepSeek R1	낮은 가격에 높은 추론 성능
창의적 글쓰기	Claude Opus 4.6	Chatbot Arena 1위, 문학적 감각
과학 추론	o3, Gemini 2.5 Pro	GPQA 87%+
오픈소스/자체 호스팅	DeepSeek R1	MIT 라이선스, o3급 성능

핵심 교훈: 추론 모델이 항상 좋은 것은 아니다

최근 연구들은 "과도한 사고(overthinking)"의 위험을 경고한다. 일정 토큰 수를 넘어서면 오히려 성능이 하락할 수 있다. 이것이 Google이 사고 예산 기능을 도입한 이유다.

경험칙:

단순한 태스크에 추론 모델을 쓰면 → 느리고 비싸기만 하다
복잡한 태스크에 일반 모델을 쓰면 → 논리적 실수를 범한다
문제의 난이도에 맞는 모델과 사고 수준을 선택하는 것이 핵심

제8장: 역사적 맥락 — 어떻게 여기까지 왔나

2023.3 GPT-4 → 2024.9 o1 → 2025.1 R1 → 2025.3 Gemini 2.5

2025.4 o3/o4 → 2025.5 Claude 4 → 2025.8 Deep Think → 2026 삼국지

2023년 3월 (GPT-4): "크게 학습하면 똑똑해진다"의 정점. 스케일링의 시대.

2024년 9월 (o1): "오래 생각하면 더 잘 푼다"의 시작. 테스트 타임 컴퓨트의 시대 개막.

2025년 1월 (DeepSeek R1): "싸게도 생각하는 모델을 만들 수 있다." 순수 RL로 학습, MIT 라이선스, 95% 비용 절감. 미국 주식시장 충격.

2025년 3월 (Gemini 2.5 Pro): Google의 반격. 모든 카테고리 1위. "생각하는 능력"을 기본 탑재.

2025년 5월 (Claude 4, o3): Anthropic과 OpenAI의 대응. Claude는 코딩, o3는 과학 추론에서 강점.

2025년 8월 (Deep Think): IMO 금메달. 병렬 사고. 소비자 접근 가능.

2026년 현재: 모든 최전선 모델이 사고 능력 탑재. 경쟁은 "생각하느냐 마느냐"에서 "얼마나 잘 생각하느냐"로 이동.

마치며: AI의 새로운 IQ

인간의 지능을 측정하는 데 두 가지 차원이 있다. 결정성 지능(crystallized intelligence) — 축적된 지식과 경험. 그리고 유동성 지능(fluid intelligence) — 새로운 문제를 추론하고 해결하는 능력.

2023년까지의 AI는 결정성 지능의 시대였다. 인터넷의 지식을 파라미터에 압축하고, 그 지식을 유창하게 재구성하는 것. GPT-4가 바로 의사처럼, 변호사처럼 말할 수 있었던 이유다.

2025년부터의 AI는 유동성 지능의 시대다. 축적된 지식만으로는 풀 수 없는 새로운 문제를 마주했을 때, 멈추고, 분해하고, 탐색하고, 검증하는 능력. Deep Think가 IMO 금메달을 딴 것은, 학습 데이터에 정답이 있었기 때문이 아니다 — 새로운 문제를 스스로 추론했기 때문이다.

삼국지는 계속된다. 수학에서는 Gemini가, 코딩에서는 Claude가, 과학 추론에서는 o3가, 비용 효율에서는 DeepSeek이 각축을 벌인다. 하지만 진짜 승자는 이 모델들을 문제에 맞게 선택하고 조합하는 사람이다.

참고 자료

Google. (2025). Gemini 2.5: Our newest model with thinking. Google Blog.
Google DeepMind. (2025). Gemini with Deep Think achieves gold medal at IMO 2025.
OpenAI. (2024). Learning to Reason with LLMs. openai.com.
OpenAI. (2025). Introducing o3 and o4-mini. openai.com.
Anthropic. (2025). Introducing Claude 4. anthropic.com.
DeepSeek AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL. arXiv:2501.12948.
LMArena. (2025). WebDev Arena. lmarena.ai.
LMArena. (2026). Chatbot Arena Leaderboard. arena.ai.

인사이트2026.05.23

추론 모델 삼국지: Gemini Deep Think, OpenAI o3, Claude Opus — 누가 이기고 있나

들어가며: AI가 "생각"하기 시작했다

제1장: 왜 "생각하는 AI"가 필요했나

크기의 벽

새로운 스케일링 축: 테스트 타임 컴퓨트

제2장: 추론 모델은 어떻게 작동하는가

체인 오브 소트(Chain-of-Thought)의 자동화

기존 LLM vs 추론 모델

비유: 체스 엔진

제3장: 삼국지 — 세 진영의 전쟁

OpenAI: o-시리즈의 선봉

Google: Gemini의 역습

Anthropic: Claude의 코딩 지배

DeepSeek: 오픈소스의 습격

제4장: WebDev Arena — Gemini의 홈런

WebDev Arena란?

Gemini 2.5 Pro의 WebDev Arena 1위

제5장: 핵심 벤치마크 총정리 (2025~2026)

GPQA Diamond: 인간 PhD를 넘어서다

IMO 금메달: 수학 올림피아드의 정상

Chatbot Arena 종합 순위 (2026년 3월)

제6장: 사고 예산 — "얼마나 오래 생각할까"를 조절하다

Google의 Thinking Budget

비용 비교

제7장: 실무 가이드 — 언제 어떤 모델을 쓸 것인가

용도별 추천

핵심 교훈: 추론 모델이 항상 좋은 것은 아니다

제8장: 역사적 맥락 — 어떻게 여기까지 왔나

마치며: AI의 새로운 IQ

관련 포스트

AI 코딩 측정의 12가지 함정 — 우리는 무엇을 잘못 재고 있는가

나는 AWS로 돌아갔고, 떠난 이유를 다시 떠올렸다 — 클라우드 20년사의 빛과 그늘

평생 직업의 종말? — 션 거데키의 도발과 소프트웨어 엔지니어의 미래 15년

당신의 말이 다 맞아요 — 아첨하는 AI의 위험에 관한 스탠퍼드 연구