AI 환각할루시네이션LLM 벤치마크RIKER날조율문서 QA컨텍스트 길이

LLM은 문서를 읽고도 얼마나 거짓말할까? 1,720억 토큰 대실험의 충격적 결과

35개 오픈소스 LLM에 1,720억 토큰을 먹여 문서 Q&A 환각률을 측정한 사상 최대 규모 연구. 최고의 모델도 1.19%는 거짓말하고, 컨텍스트가 길어지면 환각이 3배로 뛰며, Temperature 0이 반드시 최선은 아닌 — 놀라운 발견들을 정리한다.

코어닷투데이2026-04-0747분

들어가며: "이 문서에 기반해 답하세요" — 그런데 AI가 지어낸다면?

2025년 말, 대형 로펌 Baker McKenzie의 AI 시스템이 계약 검토 중 존재하지 않는 조항을 인용하는 사고가 발생했다. 문서를 "읽고" 답하는 RAG(검색 증강 생성) 파이프라인이었는데, AI는 문서에 없는 면책 조항을 자신 있게 만들어냈다. 이것이 바로 문서 기반 Q&A에서의 환각(hallucination) 문제다.

"문서를 줬으니 그 안에서만 답하겠지"라는 가정은 위험하다. 2026년, JV Roig가 발표한 논문 "How Much Do LLMs Hallucinate in Document Q&A Scenarios?"는 이 질문에 대해 역대 최대 규모의 실증 연구를 수행했다. 35개 오픈소스 모델, 3가지 컨텍스트 길이(32K, 128K, 200K), 4가지 Temperature 설정, 3개 하드웨어 플랫폼(NVIDIA H200, AMD MI300X, Intel Gaudi3)에 걸쳐 총 1,720억 토큰 — 이전 연구의 8배 규모다.

결과는 충격적이다. 이 글에서 그 발견들을 하나하나 풀어본다.

제1장: 왜 이 연구가 필요했나 — AI 환각 측정의 역사적 한계

AI 환각 연구의 진화

환각의 정의: "그럴듯하지만 사실이 아닌 것"

LLM 환각(hallucination)이란, 모델이 사실에 기반하지 않은 내용을 자신 있게 생성하는 현상이다. 2023년 뉴욕 변호사 Steven Schwartz가 ChatGPT가 지어낸 가짜 판례를 법원에 제출한 사건은 유명하다. 하지만 문서 Q&A에서의 환각은 더 교묘하다 — AI에게 "이 문서를 읽고 답해"라고 했는데, 문서에 없는 내용을 만들어내기 때문이다.

기존 벤치마크의 세 가지 치명적 결함

기존 환각 측정 방법들은 각각 심각한 한계를 가지고 있었다:

데이터 오염 (Data Contamination)

TruthfulQA, SimpleQA 같은 벤치마크는 정적 데이터셋을 사용한다. LLM의 학습 데이터에 이미 포함되어 있을 가능성이 높다. Yang et al.(2023)은 "단순 패러프레이즈만으로도 오염 탐지를 우회할 수 있다"고 밝혔다.

LLM-as-Judge의 편향

GPT-4로 다른 모델의 환각을 평가하는 방식에는 12가지 이상의 편향이 존재한다(CALM 프레임워크). RAGAS 평가 프레임워크는 인간 평가와의 상관관계가 0.55에 불과했다 — 동전 던지기보다 조금 나은 수준.

불충분한 규모

대부분의 연구는 수백~수천 개 질문으로 평가한다. 통계적 신뢰도를 확보하기에 턱없이 부족하다. 특히 Temperature 변동이나 하드웨어 차이 같은 미묘한 효과를 잡아내기엔 역부족이다.

기존 벤치마크 비교

벤치마크	측정 대상	한계	오염 위험
TruthfulQA	일반 사실성	정적 데이터셋, 짧은 답변	높음
SimpleQA	단문 사실 확인	짧은 형식만 지원	높음
FActScore	원자적 사실 분해	LLM-Judge 의존	중간
Needle-in-a-Haystack	긴 컨텍스트 검색	검색만 테스트, 이해력 X	낮음
RULER	멀티홉 추론	날조 테스트 없음	낮음
RIKER (본 논문)	문서 Q&A 전체	영어만, 오픈소스만	불가능 (동적 생성)

"기존 벤치마크는 대부분 그라운딩(문서에서 정보 찾기)만 테스트한다. 이것은 위험할 정도로 불완전하다." — 논문 Section 6.2

제2장: RIKER — 발상을 뒤집은 평가 방법론

RIKER 방법론 개념도

전통적 방식 vs RIKER의 역발상

기존 벤치마크는 "문서를 먼저 준비하고 → 거기서 질문과 정답을 추출하는" 방식이다. 이 과정에서 인간 어노테이션이나 LLM 판정이 필요하고, 이것이 편향의 원인이 된다.

RIKER는 완전히 반대로 간다:

Ground Truth DB 구축

↓

엔티티 · 관계 · 사실을 관계형 DB에 저장

↓

템플릿 기반 문서 자동 생성 (LLM 미사용)

↓

12단계 질문 자동 생성 (정답 이미 확정)

↓

LLM 답변 → 결정적(deterministic) 채점

핵심 혁신: 정답을 먼저 만들고, 그 정답이 포함된 문서를 나중에 생성한다. 이렇게 하면:

인간 어노테이션 불필요 — 정답은 DB에서 자동 도출
LLM 판정 불필요 — 채점이 결정적(deterministic)
데이터 오염 불가능 — 매번 새로운 문서와 질문을 생성 가능

12단계 질문 분류 체계

RIKER의 질문은 3개 범주, 12개 난이도로 구성된다:

L01–L04

단일 문서 질문 — 표면 추출부터 복잡한 조건부 추출까지. "이 계약서의 시작 날짜는?"부터 "조건 X가 만족될 때의 위약금은?"까지.

L05–L10

집계 질문 — 여러 문서를 종합. 카운팅, 합산, 비교, 열거, 멀티홉 추론, 시간 기반 쿼리. "2024년에 계약이 만료되는 파트너사는 모두 몇 개인가?"

L11–L12

환각 탐침(Hallucination Probes) — L11은 코퍼스에 존재하지 않는 엔티티에 대한 질문. L12는 문서에서 선택적 필드가 빠진 항목에 대한 질문. 구체적 답변 = 날조(fabrication).

4가지 핵심 측정 지표

Faithfulness (충실도)
L01–L04 + L11–L12
답변 가능한 질문의 정확도

Grounding (그라운딩)
L01–L04만
단일 문서 검색/이해 정확도

Fabrication (날조율)
L11–L12만
환각 탐침 오류율 (낮을수록 좋음)

Aggregation (집계)
L05–L10
다문서 종합 능력

제3장: 1,720억 토큰의 대실험 — 사상 최대 규모

이전 RIKER 연구(2025)는 33개 모델, 210억 토큰이었다. 이번에는 8배 확장했다:

컨텍스트 길이	모델 수	총 실행 횟수	총 토큰 수
32K	35	1,856	181.6억
128K	26	1,480	725억
200K	11	928	810.9억
합계	35	4,264	1,717.6억

각 구성별로 4가지 Temperature(0.0, 0.4, 0.7, 1.0) × 8회 반복 실행. 3개 하드웨어 플랫폼에서 교차 검증. 모든 모델은 vLLM으로 서빙.

테스트된 35개 모델

패밀리	모델	파라미터
GLM	4.5, 4.5 Air, 4.6, 4.7	비공개
Qwen	2.5 (7B~72B), Qwen3 (4B~480B)	4B ~ 480B
Llama	3.1 (8B~405B), 3.2, 3.3, 4 Scout/Maverick	1B ~ 405B
DeepSeek	V3, V3.1	685B (MoE)
MiniMax	M2, M2.1	비공개
Granite	4.0 H (Tiny, Micro, Small)	소형

제4장: 충격적 발견 — 최고의 모델도 거짓말한다

AI의 날조 문제

발견 1: 날조율 바닥은 0%가 아니다

32K 컨텍스트에서 가장 뛰어난 모델도 1.19%의 날조율을 보였다. 35개 모델 중 날조율 10% 미만은 7개뿐이었고, 5% 미만은 단 2개(GLM 4.5, GLM 4.5 Air)뿐이었다.

32K 컨텍스트 — 상위 10개 모델 날조율

GLM 4.5 1.19%

최저

GLM 4.5 Air 3.37%

MiniMax M2.1 5.26%

GLM 4.5 Air 5.75%

DeepSeek V3.1 6.35%

MiniMax M2 6.65%

Qwen3 Next 80B 7.04%

GLM 4.6 7.04%

GLM 4.7 10.52%

Qwen3 Coder 480B 12.20%

이것이 의미하는 바: 문서 기반 Q&A 100건 중 최소 1~2건은 AI가 지어낸 답이다. 의료, 법률, 금융 분야에서 이 1%는 치명적일 수 있다.

발견 2: 모델 선택이 모든 것을 지배한다

종합 정확도 범위가 72 퍼센트포인트(24.80% ~ 97.40%)에 달했다. 모델 선택이 Temperature, 컨텍스트 길이, 하드웨어를 합친 것보다 압도적으로 중요하다.

더 흥미로운 발견: 모델 크기보다 모델 패밀리가 날조 저항성을 더 잘 예측한다.

모델	파라미터	종합 정확도	날조율
Qwen3 Next 80B-A3B	3B 활성	93.87%	7.04%
Llama 3.1 405B	405B	83.10%	26.51%

활성 파라미터 3B인 Qwen3 Next가 405B Llama를 10pp 이상 앞섰다. 크기가 능사가 아니다.

제5장: 컨텍스트가 길면 환각도 뛴다

128K에서의 보편적 성능 저하

모든 모델이 128K에서 성능이 떨어졌다. 중앙값 손실 10.4pp, 평균 12.4pp.

128K 컨텍스트 — 32K 대비 정확도 하락폭 (상위 워스트)

Llama 3.3 70B -28.3pp

최악

Llama 3.1 70B -27.7pp

Llama 3.1 405B -26.5pp

GLM 4.5 Air -20.5pp

GLM 4.6 -15.4pp

Qwen3 Next 80B -6.7pp

최선

200K에서의 양극화: 우아한 저하 vs 재앙적 붕괴

200K 컨텍스트에서는 두 가지 극단적 패턴이 나타났다:

패턴	우아한 저하 (Graceful)	재앙적 붕괴 (Catastrophic)
대표 모델	Qwen3 Next 80B-A3B	GLM 4.6
32K 정확도	93.87%	93.26%
200K 정확도	82.68% (-11.19pp)	37.65% (-55.61pp)
32K 날조율	7.04%	7.04%
200K 날조율	10.25%	71.62% (10배 폭증)

두 모델은 32K에서 거의 동일한 성능이었다. 그런데 200K에서 하나는 견디고, 하나는 무너졌다. 광고된 컨텍스트 윈도우 크기 ≠ 실제 사용 가능한 용량이라는 중요한 교훈이다.

컨텍스트 길이별 날조율 변화

200K 컨텍스트 — 전 모델 날조율 (10% 이하 모델 없음)

Qwen3 Next 80B 10.25%

최저

GLM 4.5 14.22%

Qwen3 235B-A22B 28.30%

Qwen3 235B FP8 30.50%

GLM 4.7 42.30%

Llama 3.1 405B 55.60%

GLM 4.6 71.62%

최악

제6장: Temperature 0이 최선은 아니다

Temperature와 AI 행동의 관계

"결정적 출력을 위해 Temperature=0을 써라"는 통념의 붕괴

많은 기업이 프로덕션에서 Temperature=0.0을 사용한다. "랜덤성을 없애면 더 정확하겠지"라는 직관 때문이다. 이 논문은 그 통념에 강력한 반증을 제시한다.

지표	T=0.0이 최선인 비율	더 높은 T가 나은 비율
종합 정확도	~60%	~40%
그라운딩	47%	53%
날조율	47%	53% (높은 T가 더 낮은 날조)

Temperature 0의 숨겨진 위험: 무한 생성 루프

가장 놀라운 발견 중 하나다. T=0.0은 무한 반복 생성(coherence loss)을 극적으로 증가시킨다. 모델이 같은 패턴을 끝없이 반복하면서 의미 있는 답을 생성하지 못하는 현상이다.

T=0.0 대비 T=1.0 무한 생성 비율 (배수)

GLM 4.7 (200K) 48.1x

최대

GLM 4.6 (200K) 34.4x

Llama 3.2 3B (32K) 16.0x

Llama 3.1 8B (128K) 6.9x

GLM 4.7의 경우, 200K 컨텍스트에서 T=0.0은 T=1.0 대비 48배 높은 무한 생성률을 보였다 (2.59% vs 0.05%). 이는 거의 단조적(monotonic) 관계: T=0.0 >> T=0.4 >> T=0.7 >> T=1.0.

실무 권장사항: T=0.0 대신 T=0.4 또는 T=0.7이 정확도-날조율-안정성의 균형점으로 더 나을 수 있다.

제7장: 가장 위험한 발견 — 찾는 능력과 지어내지 않는 능력은 다르다

이것이 논문의 가장 중요한 발견이라고 할 수 있다.

그라운딩 vs 날조: 약한 상관관계

"문서에서 정보를 잘 찾는 모델은 없는 정보를 지어내지도 않을 것이다"라는 가정은 틀렸다. 두 능력은 약하게만 상관되어 있다.

모델	그라운딩 (%)	날조율 (%)	Gap (편차)	평가
GLM 4.5	98.86%	1.19%	-1.1	잘 교정됨
MiniMax M2.1	97.73%	5.26%	+3.3	잘 교정됨
DeepSeek V3.1	97.04%	6.35%	+3.6	잘 교정됨
GLM 4.5 Air	91.47%	3.37%	-5.2	보수적 (과소 답변)
Llama 3.1 405B	95.08%	26.51%	+21.6	검색 강하나 날조 심각
Llama 3.1 70B	90.18%	49.50%	+39.7	검색 강하나 날조 극심

가장 극적인 비교: GLM 4.5 Air와 Llama 3.1 70B는 그라운딩이 거의 동일하다 (91.47% vs 90.18%). 하지만 날조율은 3.37% vs 49.50% — 46 퍼센트포인트 차이다.

Llama 3.1 70B는 문서에서 정보를 90% 이상 정확하게 찾아내면서도, 존재하지 않는 엔티티에 대해 물으면 절반 가량을 지어낸다. 이것은 마치 도서관 사서가 책을 잘 찾아주지만, 없는 책에 대해 물으면 가짜 ISBN까지 만들어내는 것과 같다.

"Llama 3.1 70B는 90% 이상의 그라운딩 정확도를 달성하면서도, 존재하지 않는 엔티티에 대한 질문의 거의 절반에 답을 날조했다." — 논문 Section 6.2

Gap 지표로 본 모델 성격

Gap = 그라운딩 + 날조율 - 100

Gap ≈ 0: 잘 교정된 모델 (GLM 4.5: -1.1)
Gap > 0 크게: 검색은 잘하지만 날조 심한 위험한 모델 (Llama 3.1 70B: +39.7)
Gap < 0: 보수적 모델 — 모르면 "모르겠다"고 답함

제8장: 하드웨어는 중요하지 않다

3개 플랫폼(NVIDIA H200, AMD MI300X, Intel Gaudi3) 간 정확도 차이는 평균 0.58 퍼센트포인트에 불과했다. Temperature 변동(평균 1.28pp)의 절반도 안 된다.

GLM 4.5 — 하드웨어별 정확도 변동 vs Temperature 변동

하드웨어 차이 0.39pp

Temperature 차이 1.28pp

결론: GPU 선택은 비용과 가용성으로 결정하면 된다. 정확도는 하드웨어에 의존하지 않는다. 이는 특히 AMD나 Intel 하드웨어를 고려하는 기업에 좋은 소식이다.

인터랙티브 탐색기

아래에서 35개 모델의 성능을 직접 탐색해보세요. 컨텍스트 길이, 정렬 기준, 모델 패밀리를 바꿔가며 데이터를 확인할 수 있습니다.

제9장: 실전 배포 가이드 — 우선순위 순서

논문의 결론을 실무에 적용하면 다음과 같은 우선순위가 나온다:

1순위

날조 바닥은 0이 아니다 — 최고 모델도 1.19% 날조. 프로덕션 시스템에는 반드시 환각 탐지 및 검증 레이어가 필요하다. 의료·법률·금융에서는 인간 검토(HITL)가 필수.

2순위

모델 선택이 모든 것을 지배한다 — 72pp 정확도 격차. 패밀리가 크기보다 중요하다. 배포 전에 반드시 자체 평가를 수행하라.

3순위

컨텍스트 길이 관리 — 광고된 컨텍스트 윈도우 ≠ 실용적 용량. 가능하면 입력을 짧게 유지. 긴 문서는 청킹(chunking) 전략을 사용하라.

4순위

Temperature 조정 — T=0.0이 항상 최선은 아님. T=0.4~0.7을 실험하라. 특히 무한 생성 루프가 문제라면 T를 올려라.

5순위

하드웨어는 무시 — 정확도에 영향 없음. 비용과 가용성으로 결정하라.

제10장: 2026년, 환각과의 전쟁 — 현재와 미래

지금까지의 여정

AI 환각 문제는 2022년 ChatGPT 출시 이후 본격적으로 부각되었다. 4년간 업계는 RAG, CoVe(Chain-of-Verification), 시맨틱 그라운딩 등 다양한 대응 기법을 발전시켜 왔다. 하지만 이 논문이 보여주는 것은 명확하다: 근본적 해결은 아직 멀었다.

2022

ChatGPT 출시 → 환각 문제 대중화. 가짜 판례 사건 등 실제 피해 발생.

2023–2024

RAG, RLHF, Constitutional AI 등 환각 감소 기법 발전. TruthfulQA, FActScore 등 벤치마크 등장.

2025

RIKER 1.0 (33개 모델, 210억 토큰). 문서 Q&A 특화 평가 시작. 그라운딩 ≠ 날조 저항성 발견.

2026 (본 논문)

RIKER 2.0 (35개 모델, 1,720억 토큰). Temperature·컨텍스트·하드웨어 교차 분석. 환각의 구조적 성격 정밀 규명.

이 논문의 한계와 미래 연구

한계

영어만 테스트, 오픈소스 모델만(GPT-4o, Claude, Gemini 미포함), 문서 Q&A만, Temperature 0.0~0.4 사이 미세 구간 미탐색.

→

향후 연구 방향

다국어 확장(한국어 포함), 400K+ 컨텍스트, 반복 페널티 효과 분석, 날조 특화 학습(fabrication-specific training), Temperature 0.0~0.4 미세 그리드 탐색.

맺으며: AI를 신뢰하되, 검증하라

1,720억 토큰의 데이터가 말해주는 메시지는 분명하다:

환각은 LLM의 구조적 특성이다 — 0%는 달성 불가능하다
문서를 줘도 지어낸다 — RAG가 만능이 아니다
모델 선택이 가장 중요하다 — 크기보다 패밀리
Temperature 0은 만능이 아니다 — 오히려 무한 루프를 유발할 수 있다
찾는 능력과 안 지어내는 능력은 다르다 — 이것이 가장 위험한 함정이다

AI가 "이 문서에 따르면..."이라고 시작하는 답변을 할 때, 그 답이 정말 문서에 있는지 확인해야 한다. 특히 엔터프라이즈 환경에서는 신뢰하되, 반드시 검증하라(Trust, but verify)는 원칙이 그 어느 때보다 중요하다.

논문 원문: arXiv:2603.08274 — JV Roig, "How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms"

이 글은 코어닷투데이의 AI 기술 특집 시리즈입니다. 최신 AI 연구를 실무자 관점에서 해석하고, 기업이 AI를 안전하게 활용할 수 있도록 돕습니다.

기술2025.12.26