
RAG의 숨겨진 약점: '충분한 컨텍스트'가 환각을 결정한다 — Google ICLR 2025 논문 심층 분석
RAG 시스템에서 왜 여전히 환각이 발생하는가? Google Research가 ICLR 2025에서 발표한 'Sufficient Context' 개념이 그 답을 제시한다. 컨텍스트가 많다고 좋은 게 아니다 — 충분해야 한다.

RAG 시스템에서 왜 여전히 환각이 발생하는가? Google Research가 ICLR 2025에서 발표한 'Sufficient Context' 개념이 그 답을 제시한다. 컨텍스트가 많다고 좋은 게 아니다 — 충분해야 한다.
시험장 풍경을 상상해 보자.
학생에게 오픈북 시험을 치르게 한다. 교과서를 마음껏 펼쳐 봐도 된다고 했다. 그런데 시험이 끝나고 채점을 해보니, 이 학생이 교과서에 없는 내용을 자신 있게 지어내서 답안지에 적어놓았다. 심지어 교과서를 안 줬을 때보다 더 많이 틀렸다.
말도 안 되는 이야기 같지만, 이것이 바로 오늘날 RAG(Retrieval-Augmented Generation) 시스템에서 실제로 일어나고 있는 일이다.

2023년, 뉴욕의 변호사 스티븐 슈워츠는 ChatGPT를 사용해 법정 서류를 작성했다가 큰 곤욕을 치렀다. AI가 실존하지 않는 판례 6건을 자신 있게 인용했기 때문이다. 재판부가 확인 요청을 하자 슈워츠는 ChatGPT에 "이 판례들이 진짜 존재하냐"고 다시 물었고, ChatGPT는 "네, 확인 가능합니다"라고 답했다. 물론 전부 거짓이었다.
이 사건 이후 업계의 해법은 명확해 보였다. "외부 문서를 검색해서 LLM에 넣어주면 되잖아!" — 이것이 바로 RAG다. 하지만 Google Research 팀은 이 "해법"에 근본적인 질문을 던졌다.
"문서를 줬다는 것만으로는 부족하다. 그 문서에 답이 들어있는지가 핵심이다."
이것이 바로 ICLR 2025(세계 최고 수준의 AI 학술대회)에서 발표된 논문 "Sufficient Context: A New Lens on Retrieval Augmented Generation Systems"의 핵심 주장이다. 이 글에서는 이 연구가 왜 중요한지, 어떤 발견을 했는지, 그리고 2026년 현재 이 개념이 어떻게 실전에 적용되고 있는지를 자세히 살펴본다.
GPT-3가 세상을 놀라게 한 2020년, 사람들은 금세 LLM의 근본적인 한계를 발견했다.
Meta AI (당시 Facebook AI Research)의 Patrick Lewis 등이 2020년 발표한 논문 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"에서 RAG라는 개념이 처음 제안되었다.
아이디어는 직관적이다:
LLM이 모든 것을 "외워서" 답하는 대신, 필요한 정보를 그때그때 검색해서 참고하게 하는 것이다. 마치 오픈북 시험처럼.
이 접근은 세 가지 문제를 동시에 해결하는 것처럼 보였다:
RAG는 빠르게 산업 표준이 되었다. 2024년까지 엔터프라이즈 AI 솔루션의 대다수가 RAG를 핵심 아키텍처로 채택했다.
RAG를 도입한 기업들은 곧 불편한 현실과 마주했다. RAG를 적용해도 환각이 사라지지 않았다. 오히려 어떤 경우에는 RAG 없이보다 더 자주 틀렸다.
이 역설적인 현상을 설명하기 위해, 기존 연구들은 다양한 접근을 시도했다:
| 접근법 | 핵심 아이디어 | 한계 |
|---|---|---|
| 더 나은 검색 (Dense Retrieval) | 의미적으로 더 관련 높은 문서를 찾자 | "관련 있는" 문서가 반드시 "충분한" 문서는 아님 |
| 청크 최적화 (Chunking) | 문서를 적절한 크기로 잘라서 정밀도를 높이자 | 최적 크기를 찾기 어렵고, 맥락이 잘릴 수 있음 |
| 프롬프트 엔지니어링 | LLM에게 "모르면 모른다고 해"라고 지시 | 불충분한 컨텍스트에서 효과가 제한적 |
| Re-ranking | 검색 결과를 재정렬해서 최상위에 좋은 문서를 배치 | "좋은 문서"의 기준이 모호함 |
이 모든 접근에는 공통된 맹점이 있었다. "검색된 문서에 질문에 대한 답이 실제로 들어있는지"를 확인하지 않았다는 것이다.
Google Research 팀(Hailey Joren, Jianyi Zhang, Chun-Sung Ferng, Da-Cheng Juan, Ankur Taly, Cyrus Rashtchian)은 매우 단순하지만 강력한 질문을 던졌다:
"성실한 독자가 오직 주어진 컨텍스트만으로 질문에 답할 수 있는가?"
이 질문에 대한 답이 "예"이면, 그 컨텍스트는 충분(Sufficient)하다. "아니오"이면 불충분(Insufficient)하다.
핵심은 이것이다: 기존에는 검색된 문서가 질문과 "관련이 있는지(relevant)"만 따졌다. 하지만 관련이 있다고 해서 답을 도출할 수 있는 것은 아니다.
구체적인 예를 보자.
질문: "404 오류 코드는 유명한 실험실의 특정 방 번호에서 이름을 따왔다. 그 실험실은?"
두 번째 컨텍스트도 404 오류에 대해 설명하고 있으니 "관련성"은 높다. 검색 시스템은 이 문서를 높은 순위로 반환할 것이다. 하지만 "CERN"이라는 핵심 답이 빠져 있기 때문에, 이 컨텍스트로는 질문에 답할 수 없다.
문제는, LLM이 이런 상황에서 "모르겠습니다"라고 하는 대신 그럴듯한 답을 지어낸다는 것이다.
이 개념을 일상에 비유하면 더 쉽게 이해할 수 있다:
"컨텍스트가 충분한지"를 매번 사람이 확인할 수는 없다. Google Research 팀은 이 판단을 자동화하는 시스템(Autorater)을 구축했다.
다양한 자동 평가 방법의 성능을 비교한 결과다:
Gemini 1.5 Pro는 파인튜닝 없이도 프롬프팅만으로 93% 이상의 정확도를 달성했다. 이는 인간 전문가의 판단과 거의 일치하는 수준이다. 핵심은 "관련성"이 아닌 "충분성"을 판별하는 것이며, 이를 위해서는 언어 이해 능력이 뛰어난 대형 모델이 필요하다는 점이다.
연구팀은 세 가지 대표적인 QA 데이터셋을 분석하여 "실제로 검색된 컨텍스트 중 얼마나 충분한지"를 측정했다.
여기서 주목할 점이 있다:
핵심 인사이트: 자동 검색 시스템이 가져온 문서 중 상당수가 "관련은 있지만 충분하지 않다." 특히 복잡한 질문일수록 이 비율은 낮아진다. "좋은 검색"과 "충분한 컨텍스트"는 같은 것이 아니다.
또한 연구팀은 흥미로운 발견을 했다. 기존에 "골드 스탠다드(정답)"으로 간주되던 문서들 중에도 실제로는 불충분한 것이 상당수 포함되어 있었다. 이는 기존 벤치마크의 품질 자체에 의문을 제기하는 결과다.
연구팀은 다음 6개의 LLM을 4가지 조건에서 테스트했다:
대형 모델: Gemini 1.5 Pro, GPT-4o, Claude 3.5 Sonnet 소형/중형 모델: Gemini 1.5 Flash, Gemma 2 27B, Mistral 7B
4가지 조건:
모델의 응답은 세 가지로 분류된다: 정답(Correct), 거부(Abstain, "모르겠습니다"), 환각(Hallucinate, 틀린 답).
아래 도구에서 "충분한 컨텍스트"와 "불충분한 컨텍스트" 탭을 전환하며, 각 모델의 응답 패턴이 어떻게 극적으로 변하는지 직접 확인해 보자.
충분한 컨텍스트가 주어졌을 때의 성과:
| 모델 | 정답률 | 거부율 | 환각률 |
|---|---|---|---|
| Claude 3.5 Sonnet | 85.7% | 11.1% | 3.2% |
| Gemini 1.5 Pro | 84.1% | 1.6% | 14.3% |
| GPT-4o | 82.5% | 4.8% | 12.7% |
| Gemini 1.5 Flash | 77.8% | 4.8% | 17.5% |
| Gemma 2 27B | 71.4% | 3.2% | 25.4% |
대형 모델들(Claude, Gemini Pro, GPT-4o)은 충분한 컨텍스트가 있을 때 82~86%의 정답률을 기록했다. 특히 Claude 3.5 Sonnet은 환각률이 겨우 3.2%로 가장 낮았다. 이는 충분한 정보가 주어지면 LLM이 정말 잘 작동한다는 증거다.
하지만 불충분한 컨텍스트에서의 결과는 충격적이다:
| 모델 | 정답률 | 거부율 | 환각률 |
|---|---|---|---|
| GPT-4o | 23.1% | 61.5% | 15.4% |
| Gemini 1.5 Flash | 7.7% | 73.1% | 19.2% |
| Gemma 2 27B | 9.6% | 55.8% | 34.6% |
| Claude 3.5 Sonnet | 9.6% | 53.8% | 36.5% |
| Gemini 1.5 Pro | 9.6% | 50.0% | 40.4% |
이 표에서 세 가지 핵심 발견을 읽을 수 있다:
발견 1: 정답률 급락. 충분한 컨텍스트에서 85.7%였던 Claude의 정답률이 불충분한 컨텍스트에서는 9.6%로 급락했다.
발견 2: 최강 모델이 최다 환각. 충분한 컨텍스트에서 가장 뛰어났던 Gemini 1.5 Pro가, 불충분한 컨텍스트에서는 환각률 40.4%로 최악의 성적을 기록했다. 아이러니하게도, "가장 똑똑한" 모델이 정보가 부족할 때 "가장 위험한" 모델이 된 것이다.
발견 3: "모르겠다"를 잘하는 모델이 다르다. GPT-4o는 불충분한 컨텍스트에서 거부율 61.5%로 비교적 솔직했다. Gemini 1.5 Flash는 73.1%로 가장 높은 거부율을 보였다. 하지만 Gemini 1.5 Pro는 거부율이 50%에 불과하고 나머지 절반 가까이를 환각으로 채웠다.

이 논문에서 가장 놀라운 발견은 바로 이것이다:
RAG가 모델의 "모르겠다"라고 말하는 능력을 약화시킨다.
Gemma 2 27B 모델의 경우, 컨텍스트를 아예 주지 않았을 때는 오답률이 10.2%에 불과했다. 많은 경우 "모르겠습니다"라고 솔직하게 거부했기 때문이다.
그런데 불충분한 컨텍스트를 주자 오답률이 66.1%로 6.5배 폭증했다. 왜 이런 일이 벌어지는 걸까?
이것은 인간 심리에서도 발견되는 패턴이다. 심리학에서 더닝-크루거 효과(Dunning-Kruger Effect)라고 불리는 현상과 유사하다. 약간의 정보가 주어지면 자신이 충분히 안다고 착각하게 되는 것이다.
LLM의 경우, 컨텍스트 문서가 제공되면 모델은 "답변할 수 있는 상태"로 전환된다. 컨텍스트에 관련 키워드가 포함되어 있으면, 모델은 그 키워드를 조합해서 그럴듯한 답을 만들어낸다 — 실제로 그 답이 컨텍스트에서 도출 가능한지와 무관하게.
이런 상황에서 경영진이 이 답변을 근거로 의사결정을 내린다면 어떻게 될까? 불충분한 컨텍스트로 인한 환각이 현실에서 가장 위험한 이유가 바로 여기에 있다.

연구팀이 제안한 해결책의 이름은 Selective Generation이다. 핵심은 간단하다: "환각할 가능성이 높으면, 차라리 답하지 않는다."
이를 위해 두 가지 신호를 결합한다:
자기 평가 신뢰도만으로는 부족하다. 모델이 "확신한다"고 해도 불충분한 컨텍스트에서는 환각일 수 있다 — 앞서 본 Gemini 1.5 Pro의 사례처럼.
컨텍스트 충분도만으로도 부족하다. 충분한 컨텍스트가 있어도 모델이 잘못 이해해서 틀릴 수 있다.
두 신호를 로지스틱 회귀로 결합하면, 각 신호가 놓치는 케이스를 서로 보완한다.
특히 주목할 점은 Gemma 2 27B(비교적 소형 모델)에서 10 퍼센트포인트 이상의 정확도 향상을 달성했다는 것이다. 이는 소형 모델이 대형 모델보다 컨텍스트 충분도 신호의 혜택을 더 크게 받는다는 의미다.
연구팀은 Mistral 7B를 대상으로 fine-tuning 실험도 진행했다. 세 가지 학습 데이터 구성을 테스트했다:
| 학습 데이터 | 구성 | 정답률 | 환각률 |
|---|---|---|---|
| Mix 1 | 정답만으로 학습 | 31.4% | 68.6% |
| Mix 2 | 20% 랜덤 "모르겠다" 포함 | 23.0% | 75.8% |
| Mix 3 | 20% 불충분 시 "모르겠다" 포함 | 23.0% | 74.8% |
| Vanilla RAG | fine-tuning 없음 (기준) | 28.8% | 59.4% |
결과는 실망스러웠다. Fine-tuning을 하면 특정 질문에 대한 정답률은 올라가지만, "모르겠다"라고 거부하는 능력은 오히려 약해졌다. Mix 1은 거부율이 0%로 — 단 한 번도 "모르겠다"고 하지 않았다. Fine-tuning된 모델은 "항상 답변해야 한다"는 패턴을 학습해버리는 경향이 있기 때문이다.
이 실험은 중요한 시사점을 준다: 환각 문제는 모델 학습 단계에서만 해결할 수 없다. 추론(inference) 단계에서의 메커니즘 — Selective Generation 같은 — 이 반드시 필요하다.
기존 RAG 개선 연구들과의 차이를 명확히 짚어보자.
| 기존 접근 | Sufficient Context 접근 |
|---|---|
| 검색 품질(관련성) 향상에 집중 | 검색 결과의 충분성 판별에 집중 |
| 모델이 더 잘 답하게 하는 것이 목표 | 모델이 모를 때 멈추게 하는 것이 목표 |
| 환각 원인을 모델 능력의 문제로 봄 | 환각 원인을 컨텍스트 품질의 문제로 재정의 |
| 정답 레이블이 필요한 평가 방식 | 정답 없이 컨텍스트만으로 평가 가능 |
| 더 많은 컨텍스트 = 더 좋은 결과 가정 | 더 많은 컨텍스트가 더 많은 환각을 유발할 수 있음을 발견 |
특히 "정답 없이 평가 가능"이라는 점이 실전에서 결정적이다. 실제 프로덕션 환경에서는 사용자가 어떤 질문을 할지 미리 알 수 없고, 따라서 정답 레이블도 없다. Sufficient Context 접근은 정답을 몰라도 "이 컨텍스트가 답변에 충분한지"를 판별할 수 있기 때문에, 실시간 프로덕션 시스템에 바로 적용할 수 있다.
이 연구의 가장 직접적인 성과는 Google Cloud의 Vertex AI RAG Engine에 LLM Re-Ranker로 통합된 것이다. 기존에는 검색 결과를 의미적 유사도(semantic similarity)만으로 정렬했다면, 이제는 "이 문서가 질문에 답하기에 충분한 정보를 포함하고 있는가"를 기준으로 재정렬한다.
실제 적용 효과:
2026년 현재, Sufficient Context 개념은 더 넓은 맥락에서 RAG 품질 관리의 핵심 요소로 자리잡고 있다:
연구팀은 논문의 마지막에서 두 가지 후속 연구 방향을 제시한다:
이 연구의 가장 깊은 통찰은 기술적인 것이 아니다. 그것은 "아는 것과 모르는 것의 경계를 인식하는 능력"이 지능의 핵심이라는 철학적 명제다.
소크라테스는 "나는 내가 모른다는 것을 안다"라고 말했다. 2500년이 지난 지금, 우리는 AI에게 같은 능력을 가르치려 하고 있다. Google Research 팀의 연구는 그 여정에서 중요한 이정표를 세웠다.
RAG 시스템을 구축하거나 운영하고 있다면, "검색 품질"만큼이나 "검색된 컨텍스트의 충분성"에 주목해야 한다. 더 많은 문서를 넣는 것이 아니라, 정말 답을 도출할 수 있는 문서인지를 확인하는 것 — 이것이 2026년 RAG 시스템의 핵심 경쟁력이 될 것이다.
논문 정보:
함께 읽으면 좋은 글: