AI 벤치마크Humanity's Last ExamSimpleQAMMLU할루시네이션LLM 평가

AI 벤치마크 특집: 인류의 마지막 시험과 거짓말 탐지기 — HLE & SimpleQA 완전 해부

AI가 시험을 너무 잘 보기 시작했다. MMLU 90%, GPQA 94% — 기존 시험은 더 이상 AI의 한계를 측정하지 못한다. 인류 최후의 시험 HLE와 AI 거짓말 탐지기 SimpleQA, 두 벤치마크가 왜 등장했고 무엇을 말해주는지 완전 해부한다.

코어닷투데이2026-02-0442분

들어가며

시험은 원래 학생을 평가하기 위한 것이었다. 그런데 2026년, 시험의 역할이 뒤집혔다. 이제 인류는 AI를 평가하기 위해 시험을 만든다. 그리고 AI가 그 시험을 너무 빨리 통과해버리는 바람에, 시험을 만드는 인류가 오히려 쫓기는 상황이 됐다.

2020년, AI의 지식을 측정하기 위해 만들어진 MMLU(Massive Multitask Language Understanding) 벤치마크에서 당시 최고 모델 GPT-3는 43.9%를 기록했다. 인간 전문가 기준이 약 89.8%였으니, AI는 한참 뒤처져 있었다. 4년이 지난 2026년, 최신 모델들은 93%를 넘긴다. 시험이 더 이상 AI의 한계를 보여주지 못하게 된 것이다.

이것은 축하할 일이면서 동시에 심각한 문제다. AI의 진짜 실력을 측정할 방법이 사라지고 있다면, 우리는 AI가 무엇을 할 수 있고 무엇을 할 수 없는지 어떻게 알 수 있을까?

이 위기감에서 탄생한 두 가지 벤치마크가 있다:

Humanity's Last Exam (HLE) — "AI가 아직 풀 수 없는 문제가 있는가?" 인류 전문가 1,000명이 모여 만든, 문자 그대로 인류의 마지막 시험
SimpleQA — "AI가 모르는 것을 모른다고 말하는가?" AI의 사실 정확도와 거짓말 빈도를 측정하는, 일종의 AI 거짓말 탐지기

이 글에서는 AI 벤치마크의 역사부터 시작해, 왜 이 두 벤치마크가 등장할 수밖에 없었는지, 그리고 2026년 현재 무엇을 알려주는지를 깊이 파헤친다.

제1장: 시험의 역사 — AI에게 시험을 본다는 것

튜링 테스트: 최초의 AI 시험 (1950)

1950년, 앨런 튜링이 제안한 "모방 게임(Imitation Game)"이 최초의 AI 평가 기준이었다. 심사관이 텍스트 대화만으로 상대가 인간인지 기계인지 구분하지 못하면, 그 기계는 "지능이 있다"고 판정한다. 튜링은 기계가 50~100년 안에 이 테스트를 통과할 것이라 예측했다.

70년이 지난 지금, 튜링 테스트는 사실상 은퇴했다. ChatGPT는 대부분의 일상 대화에서 인간과 구분하기 어렵다. 하지만 그것이 "진짜 지능"을 의미하는가? 대부분의 연구자는 "아니오"라고 답한다. 튜링 테스트는 표면적 모방을 측정할 뿐, 깊은 이해를 측정하지 못한다.

MNIST에서 ImageNet까지: 보는 시험 (1998–2012)

AI에게 "시험"을 보게 하는 전통은 컴퓨터 비전에서 시작됐다.

MNIST(1998): 얀 르쿤(Yann LeCun)이 만든 손글씨 숫자 인식 데이터셋. 6만 개 학습 이미지, 1만 개 테스트 이미지. 당시 혁명적이었지만, 현대 모델은 99.8% 이상의 정확도를 달성해 더 이상 의미가 없다.

ImageNet(2009): 페이페이 리(Fei-Fei Li)가 만든 1,400만 장의 라벨링된 이미지. 2012년 AlexNet이 오류율 15.3%를 기록하며 2위(26.2%)를 10%포인트 이상 앞지른 순간 — 이른바 "ImageNet 모먼트" — 이 현대 딥러닝 혁명의 시작점이 됐다.

읽는 시험: SQuAD에서 GLUE까지 (2016–2019)

자연어 처리(NLP) 분야에서도 벤치마크 경쟁이 시작됐다.

SQuAD(2016): 10만 개 이상의 독해 문제. 인간 기준 F1 86.8%. BERT가 93.2%로 인간을 넘어서며 약 12개월 만에 포화.

GLUE(2018): 9개 NLU 과제 묶음. 인간 기준 87.1%. RoBERTa가 18개월 만에 88.5%로 인간을 추월.

SuperGLUE(2019): GLUE가 너무 쉬워져서 만든 업그레이드판. 인간 기준 89.8%. T5가 89.3%로 인간에 근접하는 데 역시 18개월.

패턴이 보이는가? 새 시험을 만들면, 18개월 안에 AI가 인간을 따라잡는다.

주요 벤치마크 포화 속도

SQuAD 2.0

~12개월

GLUE

~18개월

SuperGLUE

~18개월

MMLU-Pro

~18개월

GPQA Diamond

~24개월

MMLU

~4년

제2장: MMLU — 그리고 벤치마크 포화의 시대

MMLU: AI의 수능 (2020)

2020년 9월, 댄 헨드릭스(Dan Hendrycks) 등이 MMLU(Massive Multitask Language Understanding)를 발표했다. 57개 과목(STEM, 인문학, 사회과학 등)에 걸친 약 16,000개의 4지 선다형 문제로, AI의 광범위한 지식을 측정하기 위해 설계됐다.

출시 당시, GPT-3 175B의 점수는 43.9%(few-shot). 4지 선다이니 랜덤 선택이 25%다. 당시 대부분의 모델이 랜덤 수준에 머물렀다. 인간 전문가 기준 약 89.8%와의 격차는 46%포인트 — 넘을 수 없는 벽처럼 보였다.

하지만 AI는 이 벽을 4년 만에 무너뜨렸다.

MMLU 점수 변화 (2020→2026)

GPT-3 (2020)

43.9%

GPT-4 (2023)

86.4%

GPT-4o (2024)

88.7%

인간 전문가

89.8%

최신 모델 (2026)

~93%

벤치마크 포화: 시험지가 바닥나다

MMLU만의 문제가 아니다. 2023년에 새로 도입된 세 벤치마크 — MMMU, GPQA, SWE-bench — 의 점수가 단 1년 만에 각각 18.8, 48.9, 67.3%포인트 상승했다. 스탠퍼드 AI Index 2025 보고서가 경고하듯, 벤치마크의 유용 수명(half-life)이 점점 짧아지고 있다.

GPQA Diamond은 특히 극적인 사례다. 2023년 출시 당시 GPT-4의 점수는 39%였고, PhD 전문가의 점수가 65~74%였다. 2026년 3월 현재, Gemini 3.1 Pro Preview가 94.1%를 기록한다. 전문가 기준을 24%포인트 초과한 것이다.

이것은 "움직이는 골대(moving goalpost)" 문제를 낳는다. AI가 어떤 시험에서 높은 점수를 받으면, 연구 커뮤니티는 "그건 진짜 지능이 아니다"라고 말하며 새 시험을 만든다. 새 시험에서도 높은 점수를 받으면, 또 새 시험을 만든다. 시험을 만드는 사람이 지치기 시작했다.

벤치마크 하나를 만드는 데는 도메인 전문가, 엔지니어, 수개월의 정제 작업이 필요하다. 그렇게 만든 시험이 18개월 만에 쓸모없어진다.

이 위기 속에서, 두 가지 근본적으로 다른 접근이 등장했다. 하나는 "AI가 절대 못 푸는 문제를 만들자"(HLE), 다른 하나는 "AI가 얼마나 자주 거짓말하는지 측정하자"(SimpleQA).

제3장: Humanity's Last Exam — 인류 최후의 시험

탄생 배경: "더 어려운 시험이 필요하다"

시험을 치르는 로봇

2025년 1월, AI 안전 센터(Center for AI Safety, CAIS)의 댄 헨드릭스(MMLU의 창시자이기도 하다)와 Scale AI가 합작으로 발표한 Humanity's Last Exam(HLE)은 이름부터 도발적이다. "인류의 마지막 시험" — AI가 아직 풀 수 없는, 인류가 만들 수 있는 가장 어려운 시험.

HLE의 핵심 동기:

"LLM이 MMLU 같은 인기 벤치마크에서 90% 이상의 정확도를 달성하면서, 최첨단 모델의 성능을 의미 있게 평가하는 것이 어려워졌다."

어떻게 만들어졌는가

HLE의 제작 과정 자체가 전례 없는 규모의 프로젝트였다.

1단계: 전문가 모집

50개국 500개 이상 기관에서 약 1,000명의 전문가를 모집. 대부분 교수, 연구자, 박사급 이상. 상위 50명에게 $5,000, 그 다음 500명에게$ 500의 보상을 제공.

2단계: 문제 수집

70,000개 이상의 문제가 제출됨. 이 중 AI 난이도 필터(최신 모델이 실패하거나 랜덤보다 낮은 성능)를 통과한 문제는 약 13,000개.

3단계: 전문가 검증

Scale AI의 Outlier 플랫폼에서 석사/박사급 검증자가 2라운드에 걸쳐 검토. 모호하거나 인터넷 검색으로 풀 수 있는 문제는 제거.

최종: 2,500문제

객관식 + 단답형, 자동 채점 가능. 약 14%가 멀티모달(이미지 이해 필요). Nature (2025)에 게재.

과목 분포: 수학이 핵심

HLE 문제 과목 분포

수학

41%

생물/의학

11%

컴퓨터과학/AI

10%

물리학

인문/사회

화학

기타 (공학 등)

13%

수학이 41%로 가장 큰 비중을 차지한다. 수학 문제가 특히 어려운 이유는, 단순한 지식 암기가 아니라 다단계 추론과 창의적 문제 해결을 요구하기 때문이다.

모델 성적: AI는 아직 한참 멀었다

HLE의 진가는 모델 점수에서 드러난다. 2025년 초 첫 결과가 나왔을 때, 교육계와 AI 연구계 모두 놀랐다.

2025년 초 (최초 결과):

HLE 최초 공개 결과 (2025년 1월)

GPT-4o 2.7%

Claude 3.5 Sonnet 4.1%

o1 (OpenAI) 8.0%

MMLU에서 90%를 넘기던 모델들이 HLE에서는 한 자릿수에 머물렀다. 당시 최고였던 o1도 겨우 8%. 인간 전문가가 자기 분야에서 약 90%를 맞히는 것과 비교하면, 간극이 극명하다.

2026년 3월 (최신 리더보드):

순위	모델	점수	보정 오차
1	GPT-5.4 Pro	44.32%	38
2	Gemini 3 Pro Preview	37.52%	57
3	GPT-5.4 (xhigh thinking)	36.24%	42
4	Claude Opus 4.6 Thinking Max	34.44%	46
5	GPT-5 Pro	31.64%	49
6	Claude Opus 4.5 Thinking	25.20%	55

1년 만에 최고 점수가 8%에서 44.32%로 올랐다. 놀라운 발전이지만, 여전히 절반도 맞히지 못한다. 인간 전문가 기준(~90%)과의 격차는 아직 45%포인트 이상이다.

HLE가 어려운 이유

HLE의 문제들은 단순한 지식 확인이 아니다. 몇 가지 특성이 기존 벤치마크와 차별화된다:

인터넷 검색으로 풀 수 없다 — 답이 웹에 없는 문제만 선별
다단계 추론이 필요하다 — 여러 개념을 연결해야 풀 수 있음
최전선 지식을 요구한다 — 해당 분야의 최신 연구 수준의 전문성
단일 정답이 존재한다 — 모호하지 않고 검증 가능한 답

이런 조건을 모두 만족하면서도 인간 전문가는 풀 수 있는 문제 — 그것이 HLE의 설계 철학이다. "AI에게는 어렵지만, 인간에게는 가능한" 문제의 경계를 찾는 것이다.

제4장: SimpleQA — AI의 거짓말을 측정하다

다른 종류의 문제: "AI가 모르면서 아는 척하는가?"

자신감 넘치는 로봇과 팩트체커

HLE가 "AI가 얼마나 어려운 문제를 풀 수 있는가"를 측정한다면, SimpleQA는 완전히 다른 질문을 던진다:

"AI가 간단한 사실을 물었을 때, 정확하게 답하는가? 그리고 모를 때 모른다고 말하는가?"

2024년 10월 OpenAI가 발표한 SimpleQA는 4,326개의 짧은 사실 확인 질문으로 구성된다. "마이크로소프트의 설립 연도는?", "에펠탑의 높이는?" 같은 단순한 질문이다. 이름 그대로 Simple하다.

하지만 "단순한 질문"이 AI에게는 전혀 단순하지 않다는 것이 이 벤치마크의 핵심 통찰이다.

핵심 프레임워크: 맞음, 틀림, 시도하지 않음

SimpleQA의 독창적인 평가 체계는 세 가지 범주를 사용한다:

SimpleQA의 3분류 평가 체계

Correct (정답) 사실에 부합하는 정확한 답변

Incorrect (오답 = 할루시네이션) 자신 있게 틀린 답을 제시 — 거짓말

Not Attempted (미시도) 답을 모른다고 인정하고 거부

기존 벤치마크는 "맞았다/틀렸다"만 측정했다. SimpleQA는 "틀렸는데 자신 있게 틀렸다(할루시네이션)"와 "모른다고 솔직히 말했다(미시도)"를 구분한다. 이 구분이 왜 중요한가?

실제 업무에서 AI가 "모릅니다"라고 답하면, 사용자는 직접 확인할 것이다. 하지만 AI가 자신감 넘치는 어조로 틀린 정보를 제공하면, 사용자는 그것을 사실로 받아들일 가능성이 높다. 진짜 위험한 것은 틀리는 것이 아니라, 틀리면서 모르는 척 하지 않는 것이다.

충격적인 결과: GPT-4o-mini의 90% 할루시네이션

2024년 10월 최초 결과:

SimpleQA 결과 — 할루시네이션(오답) 비율이 높을수록 위험

GPT-4o-mini

90.5% 할루시네이션

o1-mini

63.4% 할루시네이션

GPT-4o

60.8% 할루시네이션

o1-preview

48.1% 할루시네이션

Claude 3.5 Sonnet

36.1% 할루시네이션

Claude 3 Haiku

19.6% 할루시네이션

GPT-4o-mini가 질문의 90.5%에서 자신감 있게 잘못된 답을 했다. 정답률은 고작 8.6%. 이것은 GPT-4o-mini가 "무지하다"가 아니라 "무지하면서 아는 척한다"는 뜻이다.

반면 Claude 3 Haiku는 할루시네이션 비율이 19.6%로 가장 낮았다. 비결은? 질문의 75.3%를 "모릅니다"로 거부했기 때문이다. 정답률은 5.1%로 낮지만, "거짓말은 거의 하지 않는" 전략이다.

보정(Calibration) 문제: AI는 자기가 모르는 것을 모른다

SimpleQA의 또 다른 핵심 발견은 보정(calibration) 문제다. 모델에게 "이 답에 대한 확신도를 퍼센트로 말해보세요"라고 요청하면, 실제 정확도보다 항상 높은 확신도를 보고한다.

예를 들어, 모델이 "80% 확신합니다"라고 말한 답들을 모아보면, 실제로는 40%만 맞았다. AI는 자기가 모르는 것을 모른다(doesn't know what it doesn't know). 이것은 메타인지(metacognition)의 부재를 의미하며, AI를 실무에 적용할 때 가장 위험한 특성 중 하나다.

다만 흥미로운 발견이 있다. 추론(reasoning) 모델(o1-preview)이 일반 모델보다 보정이 훨씬 나았다. "생각하는 과정"을 거치는 모델이 자신의 무지를 더 잘 인식한다는 것이다. 이것은 o1 이후의 추론 모델 발전 방향에 중요한 시사점을 준다.

2025-2026 업데이트: SimpleQA Verified

원본 SimpleQA에 노이즈가 있는 문제(잘못된 정답 라벨 등)가 발견되면서, 2025년 9월 SimpleQA Verified가 발표됐다. 1,000개의 정제된 질문으로 구성된 업그레이드 버전이다.

2026년 3월 기준, Gemini 3 Pro가 SimpleQA Verified에서 72.1%의 정확도를 기록하며 사실 정확성 부문 최고 점수를 세웠다. GPT-5 계열은 약 46% 정확도에 47% 할루시네이션율 — 2년 전보다는 개선됐지만, 여전히 질문의 절반 가까이에서 거짓말을 한다.

제5장: 벤치마크 전체 지도 — 2026년 현재

AI의 성적표: 과목별 점수

2026년 3월 기준, 주요 벤치마크에서의 최고 성적을 한눈에 보자.

2026년 3월 — 주요 벤치마크 최고 점수

ARC-AGI-2 (비용제한)

24% 미포화

FrontierMath Tier4

31% 미포화

HLE

44% 미포화

FrontierMath 전체

48% 미포화

SimpleQA Verified

72%

SWE-bench Verified

81%

MMLU-Pro

90% 포화

MMLU

93% 포화

GPQA Diamond

94% 포화

아직 의미 있는 벤치마크 3가지

2026년 현재, AI의 한계를 실제로 보여주는 벤치마크는 세 가지뿐이다:

HLE (44%) — 전문가 수준의 다분야 지식과 추론
FrontierMath Tier 4 (31%) — 연구 수준의 수학 문제 해결
ARC-AGI-2 비용 제한 (24%) — 추상적 추론과 일반화 능력

이 세 벤치마크의 공통점: 단순한 지식이 아니라 깊은 추론을 요구한다. AI가 학습 데이터에서 본 적 없는 유형의 문제를, 제한된 예시만으로 풀어야 한다.

누가 어디서 1등인가: 모델별 강점 지도

흥미로운 것은 단일 모델이 모든 벤치마크를 지배하지 않는다는 점이다.

2026년 3월 — 모델별 강점 영역

GPT-5.4 Pro HLE 1위 (44%)
FrontierMath 1위 (48%)
수학·추론 최강

Gemini 3.1 Pro GPQA 1위 (94%)
SimpleQA 1위 (72%)
MMLU-Pro 1위 (90%)
지식·사실정확도 최강

Claude Opus 4.6 Chatbot Arena 1위 (1504 Elo)
SWE-bench 상위권 (81%)
코딩·대화·글쓰기 최강

이것은 중요한 메시지를 담고 있다. "어떤 AI가 가장 좋은가?"에 대한 정답은 "무엇에 쓰려고?"이다. 수학 연구에는 GPT-5.4, 사실 확인이 중요한 업무에는 Gemini 3.1, 코딩과 대화에는 Claude Opus 4.6이 최적이다. 단일 점수로 AI를 줄 세우는 시대는 끝났다.

제6장: 벤치마크가 가르쳐주는 것들

교훈 1: AI는 "알고 있다"와 "할 수 있다" 사이에 간극이 있다

MMLU에서 93%를 맞히는 AI가 HLE에서 44%에 머무는 이유는 무엇인가? MMLU는 주로 "이것을 알고 있는가?"를 묻는다. HLE는 "이것을 알고 있는 것을 사용해서 새로운 문제를 풀 수 있는가?"를 묻는다.

이것은 인간 교육에서도 익숙한 구분이다. 블룸의 교육목표 분류학(Bloom's Taxonomy)에서, "기억(Remember)"과 "이해(Understand)"는 저수준 인지이고, "분석(Analyze)", "평가(Evaluate)", "창조(Create)"는 고수준 인지다. MMLU가 저수준을, HLE가 고수준을 측정한다고 볼 수 있다.

교훈 2: 확신과 정확도는 별개다

SimpleQA가 보여준 가장 불편한 진실은 AI가 틀릴 때도 확신에 차 있다는 것이다. GPT-4o-mini가 90.5%의 질문에서 자신감 있게 틀린 답을 했다는 사실은, AI를 실무에 배치할 때 "AI의 답을 얼마나 신뢰할 것인가"라는 근본적 질문을 던진다.

이것은 기술적 문제이면서 동시에 제도적 문제다. 의료, 법률, 금융 분야에서 AI가 자신감 있게 틀린 정보를 제공하면, 결과는 재앙적일 수 있다. SimpleQA 같은 벤치마크는 이런 위험을 정량화할 수 있게 해준다.

교훈 3: 벤치마크 오염은 심각한 문제다

2025년, OpenAI는 SWE-bench Verified에서의 점수 보고를 중단했다. 이유: 모든 프론티어 모델의 학습 데이터에 SWE-bench 데이터가 오염되어 있었기 때문이다. 모델이 문제를 "풀어서" 맞힌 것인지, 학습 때 "외워서" 맞힌 것인지 구분할 수 없게 된 것이다.

이에 대한 대응으로 등장한 것이 LiveBench — 매월 새로운 질문을 최신 소스(arXiv 논문, 뉴스 등)에서 생성해 오염 가능성을 원천 차단하는 벤치마크다. ICLR 2025 Spotlight Paper로 선정됐다.

HLE 역시 오염 방지를 설계의 핵심 원칙으로 삼았다. "인터넷에서 찾을 수 없는 답"만 포함하므로, 학습 데이터에 답이 있을 가능성이 극도로 낮다.

제7장: 미래 — 벤치마크는 어디로 가는가

ARC-AGI-2: "진짜 지능"을 측정하려는 시도

Keras의 창시자 프랑수아 숄레(François Chollet)가 만든 ARC-AGI 시리즈는 근본적으로 다른 철학을 가진 벤치마크다. 지식이 아니라 추상적 추론(fluid intelligence)을 측정한다.

ARC-AGI-2(2025)의 과제는 시각적 격자 퍼즐이다. 몇 개의 입출력 예시만 보고 규칙을 파악한 뒤, 새로운 입력에 적용해야 한다. 인간은 평균 60%를 맞히지만, 순수 LLM은 0%를 기록한다. 비용 제한 하에서 최고 점수는 24%다.

이것은 AI의 일반화(generalization) 능력에 대한 가장 엄격한 시험이다. AI가 학습 데이터에서 본 적 없는 완전히 새로운 유형의 문제를 풀 수 있는가? 현재로서는 답이 "거의 아니오"다.

Chatbot Arena: 인간이 직접 평가한다

벤치마크의 또 다른 혁신은 인간 직접 평가다. Chatbot Arena(LMArena)는 600만 건 이상의 사용자 투표를 기반으로 모델을 순위 매긴다. 사용자가 두 모델의 익명 응답을 비교하고 더 나은 쪽에 투표하는 방식이다. 자동 벤치마크가 측정하지 못하는 "실제 사용자 경험"을 포착한다.

벤치마크의 미래: 멀티모달, 에이전트, 그리고 사회적 영향

앞으로의 벤치마크는 몇 가지 방향으로 진화할 것이다:

멀티모달 — 텍스트만이 아니라 이미지, 영상, 음성을 포함한 종합 평가
에이전트 벤치마크 — 실제 소프트웨어 환경에서 복잡한 과제를 수행하는 능력 (SWE-bench의 확장)
실시간 갱신 — LiveBench처럼 오염 불가능한 동적 벤치마크
사회적 영향 측정 — 편향, 안전성, 윤리적 판단까지 포괄

마치며

AI 벤치마크의 역사를 돌아보면, 하나의 패턴이 반복된다.

새 시험을 만든다 → AI가 통과한다 → "그건 진짜 지능이 아니다" → 더 어려운 시험을 만든다 → 반복.

이 순환에서 HLE와 SimpleQA는 각각 다른 방식으로 돌파구를 제시한다.

HLE는 "인류가 만들 수 있는 가장 어려운 시험"을 만들어, AI가 아직 인간 전문가에 한참 미치지 못한다는 것을 보여준다. 2026년 3월 최고 점수 44% — 절반도 못 맞히는 시험이 아직 존재한다는 것 자체가 의미 있다.

SimpleQA는 "어려운 문제를 푸는 능력"이 아니라 "간단한 사실을 정확히 말하는 능력"을 측정한다. 그리고 AI가 모를 때 모른다고 말하는 능력 — 인간에게는 당연하지만 AI에게는 여전히 어려운 능력 — 의 중요성을 정량적으로 보여준다.

두 벤치마크가 함께 전하는 메시지는 하나다:

AI는 놀라울 정도로 많이 알고 있지만, 아직 모르는 것이 무엇인지를 모른다.

이 간극을 측정하고, 좁히고, 관리하는 것이 2026년 AI 연구와 실무의 핵심 과제다. 그리고 그 과제를 위해, 좋은 시험은 여전히 — 어쩌면 그 어느 때보다 — 중요하다.

참고 논문:

Phan, L. et al. (2025). "Humanity's Last Exam." Nature. arXiv:2501.14249.
Wei, J. et al. (2024). "Measuring Short-Form Factuality in Large Language Models (SimpleQA)." OpenAI. arXiv:2411.04368.
Hendrycks, D. et al. (2020). "Measuring Massive Multitask Language Understanding (MMLU)." arXiv:2009.03300.
Rein, D. et al. (2023). "GPQA: A Graduate-Level Google-Proof Q&A Benchmark." arXiv:2311.12022.
Chollet, F. (2019). "On the Measure of Intelligence." arXiv:1911.01547.

기술2026.04.07

AI 벤치마크 특집: 인류의 마지막 시험과 거짓말 탐지기 — HLE & SimpleQA 완전 해부

들어가며

제1장: 시험의 역사 — AI에게 시험을 본다는 것

튜링 테스트: 최초의 AI 시험 (1950)

MNIST에서 ImageNet까지: 보는 시험 (1998–2012)

읽는 시험: SQuAD에서 GLUE까지 (2016–2019)

제2장: MMLU — 그리고 벤치마크 포화의 시대

MMLU: AI의 수능 (2020)

벤치마크 포화: 시험지가 바닥나다

제3장: Humanity's Last Exam — 인류 최후의 시험

탄생 배경: "더 어려운 시험이 필요하다"

어떻게 만들어졌는가

과목 분포: 수학이 핵심

모델 성적: AI는 아직 한참 멀었다

HLE가 어려운 이유

제4장: SimpleQA — AI의 거짓말을 측정하다

다른 종류의 문제: "AI가 모르면서 아는 척하는가?"

핵심 프레임워크: 맞음, 틀림, 시도하지 않음

충격적인 결과: GPT-4o-mini의 90% 할루시네이션

보정(Calibration) 문제: AI는 자기가 모르는 것을 모른다

2025-2026 업데이트: SimpleQA Verified

제5장: 벤치마크 전체 지도 — 2026년 현재

AI의 성적표: 과목별 점수

아직 의미 있는 벤치마크 3가지

누가 어디서 1등인가: 모델별 강점 지도

제6장: 벤치마크가 가르쳐주는 것들

교훈 1: AI는 "알고 있다"와 "할 수 있다" 사이에 간극이 있다

교훈 2: 확신과 정확도는 별개다

교훈 3: 벤치마크 오염은 심각한 문제다

제7장: 미래 — 벤치마크는 어디로 가는가

ARC-AGI-2: "진짜 지능"을 측정하려는 시도

Chatbot Arena: 인간이 직접 평가한다

벤치마크의 미래: 멀티모달, 에이전트, 그리고 사회적 영향

마치며

관련 포스트

LLM은 문서를 읽고도 얼마나 거짓말할까? 1,720억 토큰 대실험의 충격적 결과

AI는 왜 거짓말을 하는가: 환각의 원인부터 2026년 최신 대응 기법까지

AIP 경쟁 시대 — Enterprise AI Platform 카테고리의 7가지 트렌드 (2026)

Palantir 후속 특집 — 2026, 엔지니어들이 거울을 들여다보기 시작했다