
RAG의 숨겨진 약점: '충분한 컨텍스트'가 환각을 결정한다 — Google ICLR 2025 논문 심층 분석
RAG 시스템에서 왜 여전히 환각이 발생하는가? Google Research가 ICLR 2025에서 발표한 'Sufficient Context' 개념이 그 답을 제시한다. 컨텍스트가 많다고 좋은 게 아니다 — 충분해야 한다.

RAG 시스템에서 왜 여전히 환각이 발생하는가? Google Research가 ICLR 2025에서 발표한 'Sufficient Context' 개념이 그 답을 제시한다. 컨텍스트가 많다고 좋은 게 아니다 — 충분해야 한다.
시험장 풍경을 상상해 보자.
학생에게 오픈북 시험을 치르게 한다. 교과서를 마음껏 펼쳐 봐도 된다고 했다. 그런데 시험이 끝나고 채점을 해보니, 이 학생이 교과서에 없는 내용을 자신 있게 지어내서 답안지에 적어놓았다. 심지어 교과서를 안 줬을 때보다 더 많이 틀렸다.
말도 안 되는 이야기 같지만, 이것이 바로 오늘날 RAG(Retrieval-Augmented Generation) 시스템에서 실제로 일어나고 있는 일이다.

2023년, 뉴욕 법정 — 존재하지 않는 판례 6건
변호사 스티븐 슈워츠는 ChatGPT를 사용해 법정 서류를 작성했다가 큰 곤욕을 치렀다. AI가 실존하지 않는 판례 6건을 자신 있게 인용했기 때문이다. 재판부가 확인 요청을 하자 슈워츠는 ChatGPT에 "이 판례들이 진짜 존재하냐"고 다시 물었고, ChatGPT는 "네, 확인 가능합니다"라고 답했다. 물론 전부 거짓이었다.
2024년, 에어캐나다 — 챗봇이 만든 환불 정책
에어캐나다의 고객 서비스 챗봇은 "사망한 가족의 항공권은 90일 이내에 환불 가능하다"는 정보를 제공했다. 하지만 이런 정책은 존재하지 않았다. 챗봇이 관련 문서의 조각들을 조합해 그럴듯한 — 그러나 완전히 잘못된 — 정책을 만들어낸 것이다. 결국 법원은 에어캐나다에 책임을 물었다.
2024년, 의료 AI — 위험한 약물 상호작용 조언
한 연구에 따르면, RAG 기반 의료 AI 시스템이 약물 상호작용 질문에 대해 불완전한 약학 데이터베이스를 참조한 뒤, 검색되지 않은 약물의 상호작용을 "없음"으로 단언하는 사례가 발견되었다. "모르겠다"가 아니라 "안전하다"라고 답한 것이다.
이 사건들 이후 업계의 해법은 명확해 보였다. "외부 문서를 검색해서 LLM에 넣어주면 되잖아!" — 이것이 바로 RAG다. 하지만 Google Research 팀은 이 "해법"에 근본적인 질문을 던졌다.
"문서를 줬다는 것만으로는 부족하다. 그 문서에 답이 들어있는지가 핵심이다."
이것이 바로 ICLR 2025(세계 최고 수준의 AI 학술대회)에서 발표된 논문 "Sufficient Context: A New Lens on Retrieval Augmented Generation Systems"의 핵심 주장이다. 이 글에서는 이 연구가 왜 중요한지, 어떤 발견을 했는지, 그리고 2026년 현재 이 개념이 어떻게 실전에 적용되고 있는지를 자세히 살펴본다.
RAG가 왜 나왔는지 이해하려면, "컴퓨터가 정보를 찾는 방법"이 어떻게 진화해왔는지부터 알아야 한다. 아래 타임라인에서 각 이벤트를 클릭해 자세한 설명을 확인해 보자.
컴퓨터가 문서를 찾는 가장 원초적인 방법은 "단어가 얼마나 많이 나오는가"를 세는 것이었다.
이 방식의 한계는 명확했다. "자동차 수리"를 검색하면 "차량 정비"라는 동의어가 포함된 문서를 찾지 못했다. 단어의 "의미"를 이해하지 못하기 때문이다.
2013년, Google의 Word2Vec이 게임 체인저가 되었다. 단어를 벡터(숫자 배열)로 변환하면, 의미가 비슷한 단어끼리 가까운 위치에 놓인다.
유명한 예시: "왕" - "남자" + "여자" = "여왕"
이 아이디어는 2017년 Transformer 아키텍처의 등장, 2018년 BERT로 폭발적으로 발전했다. 이제 질문과 문서 사이의 의미적 유사도를 계산할 수 있게 된 것이다.
키워드 검색: "자동차 수리" → "자동차 수리" 포함 문서만 찾음
의미 검색: "자동차 수리" → "차량 정비", "카센터", "엔진 점검" 등도 찾음
2020년 Facebook(현 Meta)의 DPR(Dense Passage Retrieval)은 BERT를 활용해 질문과 문서를 같은 벡터 공간에 매핑하는 방법을 제시했다. 드디어 "의미"를 기반으로 문서를 검색할 수 있게 된 것이다.
같은 해인 2020년, Meta AI의 Patrick Lewis 등이 역사적인 논문을 발표했다: "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks."
아이디어는 직관적이다:
LLM이 모든 것을 "외워서" 답하는 대신, 필요한 정보를 그때그때 검색해서 참고하게 하는 것이다. 마치 오픈북 시험처럼.
이 접근은 세 가지 문제를 동시에 해결하는 것처럼 보였다:
RAG는 빠르게 산업 표준이 되었다. 2023년까지 LangChain, LlamaIndex 같은 RAG 프레임워크가 폭발적으로 성장하며, 엔터프라이즈 AI 솔루션의 대다수가 RAG를 핵심 아키텍처로 채택했다.
RAG를 도입한 기업들은 곧 불편한 현실과 마주했다. RAG를 적용해도 환각이 사라지지 않았다. 오히려 어떤 경우에는 RAG 없이보다 더 자주 틀렸다.
이 역설적인 현상을 설명하기 위해, 기존 연구들은 다양한 접근을 시도했다:
| 접근법 | 핵심 아이디어 | 한계 |
|---|---|---|
| 더 나은 검색 (Dense Retrieval) | 의미적으로 더 관련 높은 문서를 찾자 | "관련 있는" 문서가 반드시 "충분한" 문서는 아님 |
| 청크 최적화 (Chunking) | 문서를 적절한 크기로 잘라서 정밀도를 높이자 | 최적 크기를 찾기 어렵고, 맥락이 잘릴 수 있음 |
| 프롬프트 엔지니어링 | LLM에게 "모르면 모른다고 해"라고 지시 | 불충분한 컨텍스트에서 효과가 제한적 |
| Re-ranking | 검색 결과를 재정렬해서 최상위에 좋은 문서를 배치 | "좋은 문서"의 기준이 모호함 |
| GraphRAG (2024) | 지식 그래프로 문서 간 관계를 모델링 | 구축 비용이 높고, 그래프가 불완전할 수 있음 |
| Self-RAG (2024) | LLM이 스스로 검색 필요성을 판단 | 자기 판단이 항상 정확하지는 않음 |
이 모든 접근에는 공통된 맹점이 있었다. "검색된 문서에 질문에 대한 답이 실제로 들어있는지"를 확인하지 않았다는 것이다.
여기서 Google Research 팀이 등장한다.
Google Research 팀(Hailey Joren, Jianyi Zhang, Chun-Sung Ferng, Da-Cheng Juan, Ankur Taly, Cyrus Rashtchian)은 매우 단순하지만 강력한 질문을 던졌다:
"성실한 독자가 오직 주어진 컨텍스트만으로 질문에 답할 수 있는가?"
이 질문에 대한 답이 "예"이면, 그 컨텍스트는 충분(Sufficient)하다. "아니오"이면 불충분(Insufficient)하다.
핵심은 이것이다: 기존에는 검색된 문서가 질문과 "관련이 있는지(relevant)"만 따졌다. 하지만 관련이 있다고 해서 답을 도출할 수 있는 것은 아니다. 이것이 이 논문의 핵심 통찰이다.
논문은 이 개념을 수학적으로 엄밀하게 정의한다:
인스턴스 에서, 컨텍스트 가 질문 에 대해 충분(sufficient)하다는 것은, 에 포함된 정보만으로 에 대한 **그럴듯한(plausible) 답 **이 존재한다는 의미이다.
여기서 중요한 세 가지 세부 사항이 있다:
구체적인 예를 보자.
질문: "404 오류 코드는 유명한 실험실의 특정 방 번호에서 이름을 따왔다. 그 실험실은?"
두 번째 컨텍스트도 404 오류에 대해 설명하고 있으니 "관련성"은 높다. 검색 시스템은 이 문서를 높은 순위로 반환할 것이다. 하지만 "CERN"이라는 핵심 답이 빠져 있기 때문에, 이 컨텍스트로는 질문에 답할 수 없다.
문제는, LLM이 이런 상황에서 "모르겠습니다"라고 하는 대신 그럴듯한 답을 지어낸다는 것이다.
실제로 더 복잡한 상황을 보자.
질문: "Lya Luft는 누구와 결혼했는가?"
두 번째 컨텍스트는 Lya Luft에 대해 매우 상세한 정보를 제공한다. 출생 연도, 출신지, 학력까지. 하지만 정작 "누구와 결혼했는가"라는 질문의 답은 없다. 이것이 바로 "관련 있지만 충분하지 않은" 컨텍스트의 전형적인 예다.
"컨텍스트가 충분한지"를 매번 사람이 확인할 수는 없다. 실시간으로 쏟아지는 수천 건의 질문에 대해 일일이 전문가가 판단하는 것은 불가능하다. Google Research 팀은 이 판단을 자동화하는 시스템(Autorater)을 구축했다.
다양한 자동 평가 방법의 성능을 비교한 결과다:
| 방법 | F1 | 정확도 | 정밀도 | 재현율 |
|---|---|---|---|---|
| Gemini 1.5 Pro (1-shot CoT) | 0.935 | 93.0% | 0.935 | 0.935 |
| FLAMe (PaLM 24B 파인튜닝) | 0.892 | 87.8% | 0.853 | 0.935 |
| Gemini 1.5 Pro (0-shot) | 0.878 | 87.0% | 0.885 | 0.871 |
| TRUE-NLI (T5 11B) | 0.818 | 82.6% | 0.938 | 0.726 |
| Contains GT (어휘 매칭) | 0.810 | 80.9% | 0.870 | 0.758 |
Gemini 1.5 Pro는 파인튜닝 없이도 프롬프팅만으로 93% 이상의 정확도를 달성했다. 특히 주목할 점:
연구팀은 세 가지 대표적인 QA 데이터셋을 분석하여 "실제로 검색된 컨텍스트 중 얼마나 충분한지"를 측정했다.
여기서 주목할 점이 있다:
흥미로운 발견: 더 많은 컨텍스트가 반드시 더 나은 결과를 보장하지 않는다.
| 데이터셋 | 2,000 토큰 | 6,000 토큰 | 10,000 토큰 |
|---|---|---|---|
| FreshQA | 63.7% | 77.4% | 77.4% |
| HotPotQA | 45.4% | 46.2% | 46.2% |
| MuSiQue | 33.4% | 44.6% | 44.6% |
2,000에서 6,000 토큰으로 늘리면 개선이 있지만, 6,000에서 10,000으로 늘려도 변화가 거의 없다. 이는 "더 많은 텍스트를 넣는다고 답이 나타나지 않는다"는 것을 의미한다. 핵심 정보가 처음부터 없으면, 주변 문맥을 아무리 늘려도 소용없다.
핵심 인사이트: "좋은 검색"과 "충분한 컨텍스트"는 같은 것이 아니다. 기존 벤치마크에서 "골드 스탠다드"로 간주되던 문서들 중에도 실제로는 불충분한 것이 상당수 포함되어 있었다.
연구팀은 다음 6개의 LLM을 4가지 조건에서 테스트했다:
대형 모델: Gemini 1.5 Pro, GPT-4o, Claude 3.5 Sonnet 소형/중형 모델: Gemini 1.5 Flash, Gemma 2 27B, Mistral 7B
4가지 조건:
모델의 응답은 세 가지로 분류된다: 정답(Correct), 거부(Abstain, "모르겠습니다"), 환각(Hallucinate, 틀린 답).
아래 도구에서 "충분한 컨텍스트"와 "불충분한 컨텍스트" 탭을 전환하며, 각 모델의 응답 패턴이 어떻게 극적으로 변하는지 직접 확인해 보자.
충분한 컨텍스트가 주어졌을 때의 성과 (인간 레이블 기준):
| 모델 | 정답률 | 거부율 | 환각률 |
|---|---|---|---|
| Claude 3.5 Sonnet | 85.7% | 11.1% | 3.2% |
| Gemini 1.5 Pro | 84.1% | 1.6% | 14.3% |
| GPT-4o | 82.5% | 4.8% | 12.7% |
| Gemini 1.5 Flash | 77.8% | 4.8% | 17.5% |
| Gemma 2 27B | 71.4% | 3.2% | 25.4% |
대형 모델들(Claude, Gemini Pro, GPT-4o)은 충분한 컨텍스트가 있을 때 82~86%의 정답률을 기록했다. 특히 Claude 3.5 Sonnet은 환각률이 겨우 3.2%로 가장 낮았다. 이는 충분한 정보가 주어지면 LLM이 정말 잘 작동한다는 증거다.
하지만 불충분한 컨텍스트에서의 결과는 충격적이다:
| 모델 | 정답률 | 거부율 | 환각률 |
|---|---|---|---|
| GPT-4o | 23.1% | 61.5% | 15.4% |
| Gemini 1.5 Flash | 7.7% | 73.1% | 19.2% |
| Gemma 2 27B | 9.6% | 55.8% | 34.6% |
| Claude 3.5 Sonnet | 9.6% | 53.8% | 36.5% |
| Gemini 1.5 Pro | 9.6% | 50.0% | 40.4% |
이 표에서 세 가지 핵심 발견을 읽을 수 있다:
발견 1: 정답률 급락. 충분한 컨텍스트에서 85.7%였던 Claude의 정답률이 불충분한 컨텍스트에서는 9.6%로 급락했다.
발견 2: 최강 모델이 최다 환각. 충분한 컨텍스트에서 가장 뛰어났던 Gemini 1.5 Pro가, 불충분한 컨텍스트에서는 환각률 40.4%로 최악의 성적을 기록했다. 아이러니하게도, "가장 똑똑한" 모델이 정보가 부족할 때 "가장 위험한" 모델이 된 것이다.
발견 3: "모르겠다"를 잘하는 모델이 다르다. GPT-4o는 불충분한 컨텍스트에서 거부율 61.5%로 비교적 솔직했다. Gemini 1.5 Flash는 73.1%로 가장 높은 거부율을 보였다. 하지만 Gemini 1.5 Pro는 거부율이 50%에 불과하고 나머지 절반 가까이를 환각으로 채웠다.

이 논문에서 가장 놀라운 발견은 바로 이것이다:
RAG가 모델의 "모르겠다"라고 말하는 능력을 약화시킨다.
아래에서 세 가지 조건을 전환하며, 컨텍스트를 주는 것이 어떻게 환각을 증가시키는지 직접 확인해 보자. 특히 "컨텍스트 없음"과 "불충분한 컨텍스트"를 비교해 보라.
Gemma 2 27B 모델의 경우, 컨텍스트를 아예 주지 않았을 때는 오답률이 10.2%에 불과했다. 많은 경우 "모르겠습니다"라고 솔직하게 거부했기 때문이다.
그런데 불충분한 컨텍스트를 주자 오답률이 66.1%로 6.5배 폭증했다. 왜 이런 일이 벌어지는 걸까?
RAG 적용 전후의 거부율 변화를 보면 이 현상이 더 명확해진다:
| 모델 | RAG 없음: 거부율 | RAG 있음: 거부율 | 변화 |
|---|---|---|---|
| Gemini 1.5 Pro | 100% | 18.6% | ▼81.4%p |
| Claude 3.5 Sonnet | 84.1% | 52.0% | ▼32.1%p |
| GPT-4o | 34.4% | 31.2% | ▼3.2%p |
| Gemma 2 27B | 80.0% | 21.8% | ▼58.2%p |
Gemini 1.5 Pro는 컨텍스트가 없을 때 100% 거부했다 — 가장 안전한 선택이었다. 하지만 RAG를 통해 컨텍스트를 받자 거부율이 18.6%로 급락했다. 81.4%포인트의 거부율 감소 — 이것이 환각으로 이어진 것이다.
이것은 인간 심리에서도 발견되는 패턴이다. 심리학에서 더닝-크루거 효과(Dunning-Kruger Effect)라고 불리는 현상과 유사하다. 약간의 정보가 주어지면 자신이 충분히 안다고 착각하게 되는 것이다.
LLM의 경우, 컨텍스트 문서가 제공되면 모델은 "답변할 수 있는 상태"로 전환된다. 컨텍스트에 관련 키워드가 포함되어 있으면, 모델은 그 키워드를 조합해서 그럴듯한 답을 만들어낸다 — 실제로 그 답이 컨텍스트에서 도출 가능한지와 무관하게.
이런 상황에서 경영진이나 고객이 이 답변을 근거로 의사결정을 내린다면? 불충분한 컨텍스트로 인한 환각이 현실에서 가장 위험한 이유가 바로 여기에 있다.
이 논문의 또 다른 흥미로운 발견은 반대 방향의 결과다. 모델들은 불충분한 컨텍스트에서도 35~62%의 정답률을 기록했다 (HotPotQA 기준). 어떻게 이것이 가능한가?
연구팀은 이 현상을 8가지 패턴으로 분류했다:
| 패턴 | 설명 | 예시 |
|---|---|---|
| Yes/No 질문 | 50% 확률로 맞출 수 있음 | "이 영화가 2020년 이후 개봉했는가?" |
| 제한된 선택지 | 답의 범위가 좁아 추측 가능 | "수도는?" — 전 세계 수도는 200개 미만 |
| 멀티홉: 단편 | 부분 정보 + 사전학습 지식으로 추론 | 컨텍스트에 A→B만 있고 B→C는 사전학습에서 |
| Closed-book 정답 | 사전학습에서 이미 알고 있던 정보 | 유명인, 역사적 사실 등 |
| 모호한 질문 | 올바른 해석을 우연히 선택 | 동명이인 중 맞는 사람을 고름 |
| 평가자 오류 | Autorater나 LLMEval의 판단 오류 | 실제로는 충분했지만 불충분으로 분류 |
이 발견은 중요한 시사점을 준다: 단순히 "컨텍스트가 불충분하면 항상 거부하라"는 전략은 최적이 아니다. 모델이 사전학습 지식으로 맞출 수 있는 경우까지 거부하면, 오히려 전체 정확도가 떨어지기 때문이다. 이것이 바로 연구팀이 Selective Generation이라는 더 정교한 접근을 제안하게 된 배경이다.

연구팀이 제안한 해결책의 이름은 Selective Generation이다. 핵심은 간단하다: "환각할 가능성이 높으면, 차라리 답하지 않는다."
이를 위해 두 가지 신호를 결합한다:
자기 평가 신뢰도만으로는 부족하다. 모델이 "확신한다"고 해도 불충분한 컨텍스트에서는 환각일 수 있다 — 앞서 본 Gemini 1.5 Pro의 사례처럼. 환각은 종종 높은 자신감과 함께 나타난다.
컨텍스트 충분도만으로도 부족하다. 앞 섹션에서 봤듯이, 불충분한 컨텍스트에서도 35~62%의 정답률을 보이는 경우가 있다. 이때 무조건 거부하면 정확도가 오히려 떨어진다.
두 신호를 로지스틱 회귀로 결합하면, 각 신호가 놓치는 케이스를 서로 보완한다. 구체적으로:
특히 주목할 점은 Gemma 2 27B(비교적 소형 모델)에서 10 퍼센트포인트 이상의 정확도 향상을 달성했다는 것이다. 이는 소형 모델이 대형 모델보다 컨텍스트 충분도 신호의 혜택을 더 크게 받는다는 의미다 — 비용 효율적인 모델을 더 안전하게 사용할 수 있다는 뜻이기도 하다.
"그냥 LLM을 학습시켜서 모를 때 모른다고 하게 하면 안 되나?"
연구팀은 이 직관적인 아이디어를 직접 테스트했다. Mistral 7B를 대상으로 LoRA(rank=4, alpha=8)를 사용해 세 가지 학습 데이터 구성을 비교했다:
| 학습 데이터 | 구성 | 정답률 (MuSiQue) | 거부율 | 환각률 |
|---|---|---|---|---|
| Vanilla RAG | fine-tuning 없음 (기준) | 28.8% | 11.8% | 59.4% |
| Mix 1 | 정답만으로 학습 | 31.4% | 0% | 68.6% |
| Mix 2 | 20% 랜덤 "모르겠다" 포함 | 23.0% | 1.2% | 75.8% |
| Mix 3 | 20% 불충분 시 "모르겠다" 포함 | 23.0% | 2.2% | 74.8% |
결과는 실망스러웠다:
이 실험은 중요한 시사점을 준다: 환각 문제는 모델 학습 단계에서만 해결할 수 없다. 추론(inference) 단계에서의 메커니즘 — Selective Generation 같은 — 이 반드시 필요하다.
| 기존 접근 | Sufficient Context 접근 |
|---|---|
| 검색 품질(관련성) 향상에 집중 | 검색 결과의 충분성 판별에 집중 |
| 모델이 더 잘 답하게 하는 것이 목표 | 모델이 모를 때 멈추게 하는 것이 목표 |
| 환각 원인을 모델 능력의 문제로 봄 | 환각 원인을 컨텍스트 품질의 문제로 재정의 |
| 정답 레이블이 필요한 평가 방식 | 정답 없이 컨텍스트만으로 평가 가능 |
| 더 많은 컨텍스트 = 더 좋은 결과 가정 | 더 많은 컨텍스트가 더 많은 환각을 유발할 수 있음을 발견 |
| 모델 fine-tuning으로 해결 시도 | 추론 단계의 후처리로 해결 (비침습적) |
특히 "정답 없이 평가 가능"이라는 점이 실전에서 결정적이다. 실제 프로덕션 환경에서는 사용자가 어떤 질문을 할지 미리 알 수 없고, 따라서 정답 레이블도 없다. Sufficient Context 접근은 정답을 몰라도 "이 컨텍스트가 답변에 충분한지"를 판별할 수 있기 때문에, 실시간 프로덕션 시스템에 바로 적용할 수 있다.
이 연구의 가장 직접적인 성과는 Google Cloud의 Vertex AI RAG Engine에 LLM Re-Ranker로 통합된 것이다. 기존에는 검색 결과를 의미적 유사도(semantic similarity)만으로 정렬했다면, 이제는 "이 문서가 질문에 답하기에 충분한 정보를 포함하고 있는가"를 기준으로 재정렬한다.
2026년 현재, Sufficient Context 개념은 더 넓은 맥락에서 RAG 품질 관리의 핵심 요소로 자리잡고 있다:
2026년 현재 가장 주목받는 방향은 Agentic RAG와 Sufficient Context의 결합이다. 기존 RAG가 "한 번 검색하고 답변"하는 구조였다면, Agentic RAG는 AI 에이전트가 검색-판단-재검색을 반복하는 구조다.
이 패턴에서 Sufficient Context는 에이전트의 "검색 품질 센서" 역할을 한다. 충분할 때까지 검색을 계속하되, 일정 횟수를 초과하면 솔직하게 거부하는 것이다.
연구팀과 학계가 제시하는 후속 연구 방향:
이 연구의 가장 깊은 통찰은 기술적인 것이 아니다. 그것은 "아는 것과 모르는 것의 경계를 인식하는 능력"이 지능의 핵심이라는 철학적 명제다.
소크라테스는 "나는 내가 모른다는 것을 안다"라고 말했다. 2500년이 지난 지금, 우리는 AI에게 같은 능력을 가르치려 하고 있다. Google Research 팀의 연구는 그 여정에서 중요한 이정표를 세웠다.
RAG 시스템을 구축하거나 운영하고 있다면, "검색 품질"만큼이나 "검색된 컨텍스트의 충분성"에 주목해야 한다. 더 많은 문서를 넣는 것이 아니라, 정말 답을 도출할 수 있는 문서인지를 확인하는 것 — 이것이 2026년 RAG 시스템의 핵심 경쟁력이 될 것이다.
그리고 이 개념은 RAG를 넘어 AI 시스템 전반에 시사점을 준다. 입력의 품질이 출력의 품질을 결정한다. "Garbage in, garbage out"이라는 오래된 격언이 AI 시대에 다시 한번 입증된 것이다. 다만 이제는 "garbage"가 아니라 "insufficient"라는 더 미묘하고 위험한 문제를 다루고 있을 뿐이다.
논문 정보:
함께 읽으면 좋은 글: