coredot.today
RAG의 숨겨진 약점: '충분한 컨텍스트'가 환각을 결정한다 — Google ICLR 2025 논문 심층 분석
블로그로 돌아가기
RAGSufficient ContextLLM 환각ICLR 2025Selective GenerationVertex AI

RAG의 숨겨진 약점: '충분한 컨텍스트'가 환각을 결정한다 — Google ICLR 2025 논문 심층 분석

RAG 시스템에서 왜 여전히 환각이 발생하는가? Google Research가 ICLR 2025에서 발표한 'Sufficient Context' 개념이 그 답을 제시한다. 컨텍스트가 많다고 좋은 게 아니다 — 충분해야 한다.

코어닷투데이2026-02-2268

들어가며: 참고자료를 줬는데 왜 거짓말을 해?

시험장 풍경을 상상해 보자.

학생에게 오픈북 시험을 치르게 한다. 교과서를 마음껏 펼쳐 봐도 된다고 했다. 그런데 시험이 끝나고 채점을 해보니, 이 학생이 교과서에 없는 내용을 자신 있게 지어내서 답안지에 적어놓았다. 심지어 교과서를 안 줬을 때보다 더 많이 틀렸다.

말도 안 되는 이야기 같지만, 이것이 바로 오늘날 RAG(Retrieval-Augmented Generation) 시스템에서 실제로 일어나고 있는 일이다.

AI가 참고자료를 보면서도 엉뚱한 답을 하는 모습을 묘사한 일러스트레이션

실제로 일어난 사건들

2023년, 뉴욕 법정 — 존재하지 않는 판례 6건

변호사 스티븐 슈워츠는 ChatGPT를 사용해 법정 서류를 작성했다가 큰 곤욕을 치렀다. AI가 실존하지 않는 판례 6건을 자신 있게 인용했기 때문이다. 재판부가 확인 요청을 하자 슈워츠는 ChatGPT에 "이 판례들이 진짜 존재하냐"고 다시 물었고, ChatGPT는 "네, 확인 가능합니다"라고 답했다. 물론 전부 거짓이었다.

2024년, 에어캐나다 — 챗봇이 만든 환불 정책

에어캐나다의 고객 서비스 챗봇은 "사망한 가족의 항공권은 90일 이내에 환불 가능하다"는 정보를 제공했다. 하지만 이런 정책은 존재하지 않았다. 챗봇이 관련 문서의 조각들을 조합해 그럴듯한 — 그러나 완전히 잘못된 — 정책을 만들어낸 것이다. 결국 법원은 에어캐나다에 책임을 물었다.

2024년, 의료 AI — 위험한 약물 상호작용 조언

한 연구에 따르면, RAG 기반 의료 AI 시스템이 약물 상호작용 질문에 대해 불완전한 약학 데이터베이스를 참조한 뒤, 검색되지 않은 약물의 상호작용을 "없음"으로 단언하는 사례가 발견되었다. "모르겠다"가 아니라 "안전하다"라고 답한 것이다.

이 사건들 이후 업계의 해법은 명확해 보였다. "외부 문서를 검색해서 LLM에 넣어주면 되잖아!" — 이것이 바로 RAG다. 하지만 Google Research 팀은 이 "해법"에 근본적인 질문을 던졌다.

"문서를 줬다는 것만으로는 부족하다. 그 문서에 답이 들어있는지가 핵심이다."

이것이 바로 ICLR 2025(세계 최고 수준의 AI 학술대회)에서 발표된 논문 "Sufficient Context: A New Lens on Retrieval Augmented Generation Systems"의 핵심 주장이다. 이 글에서는 이 연구가 왜 중요한지, 어떤 발견을 했는지, 그리고 2026년 현재 이 개념이 어떻게 실전에 적용되고 있는지를 자세히 살펴본다.


50년의 여정: 정보 검색에서 RAG까지

RAG가 왜 나왔는지 이해하려면, "컴퓨터가 정보를 찾는 방법"이 어떻게 진화해왔는지부터 알아야 한다. 아래 타임라인에서 각 이벤트를 클릭해 자세한 설명을 확인해 보자.

1세대: 키워드 매칭 (1970s~2010s)

컴퓨터가 문서를 찾는 가장 원초적인 방법은 "단어가 얼마나 많이 나오는가"를 세는 것이었다.

1
TF-IDF (1972)
Term Frequency × Inverse Document Frequency. "이 문서에 검색어가 얼마나 자주 나오는가" × "이 단어가 얼마나 희귀한가"를 곱한다. "the"같은 흔한 단어는 가치가 낮고, "양자역학"같은 특수한 단어는 가치가 높다.
2
BM25 (1994, Okapi)
TF-IDF를 확률적으로 개선한 모델. 문서 길이 정규화를 추가해서, 긴 문서가 부당하게 유리해지는 문제를 해결했다. 놀랍게도 2026년 현재에도 Elasticsearch의 기본 알고리즘으로 사용 중이다.

이 방식의 한계는 명확했다. "자동차 수리"를 검색하면 "차량 정비"라는 동의어가 포함된 문서를 찾지 못했다. 단어의 "의미"를 이해하지 못하기 때문이다.

2세대: 의미 검색 (2013~2020)

2013년, Google의 Word2Vec이 게임 체인저가 되었다. 단어를 벡터(숫자 배열)로 변환하면, 의미가 비슷한 단어끼리 가까운 위치에 놓인다.

유명한 예시: "왕" - "남자" + "여자" = "여왕"

이 아이디어는 2017년 Transformer 아키텍처의 등장, 2018년 BERT로 폭발적으로 발전했다. 이제 질문과 문서 사이의 의미적 유사도를 계산할 수 있게 된 것이다.

키워드 검색:  "자동차 수리" → "자동차 수리" 포함 문서만 찾음
의미 검색:    "자동차 수리" → "차량 정비", "카센터", "엔진 점검" 등도 찾음

2020년 Facebook(현 Meta)의 DPR(Dense Passage Retrieval)은 BERT를 활용해 질문과 문서를 같은 벡터 공간에 매핑하는 방법을 제시했다. 드디어 "의미"를 기반으로 문서를 검색할 수 있게 된 것이다.

3세대: 검색 + 생성의 결합 — RAG (2020)

같은 해인 2020년, Meta AI의 Patrick Lewis 등이 역사적인 논문을 발표했다: "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks."

아이디어는 직관적이다:

사용자 질문 문서 검색 (Retriever) 관련 문서 + 질문 LLM (Generator) 답변

LLM이 모든 것을 "외워서" 답하는 대신, 필요한 정보를 그때그때 검색해서 참고하게 하는 것이다. 마치 오픈북 시험처럼.

이 접근은 세 가지 문제를 동시에 해결하는 것처럼 보였다:

  • 지식 단절 → 최신 문서를 검색하면 된다
  • 환각 → 근거 문서가 있으니 지어낼 필요가 없다
  • 출처 부재 → 어떤 문서를 참조했는지 추적 가능하다

RAG는 빠르게 산업 표준이 되었다. 2023년까지 LangChain, LlamaIndex 같은 RAG 프레임워크가 폭발적으로 성장하며, 엔터프라이즈 AI 솔루션의 대다수가 RAG를 핵심 아키텍처로 채택했다.

하지만 현실은 달랐다

RAG를 도입한 기업들은 곧 불편한 현실과 마주했다. RAG를 적용해도 환각이 사라지지 않았다. 오히려 어떤 경우에는 RAG 없이보다 더 자주 틀렸다.

이 역설적인 현상을 설명하기 위해, 기존 연구들은 다양한 접근을 시도했다:

접근법핵심 아이디어한계
더 나은 검색 (Dense Retrieval)의미적으로 더 관련 높은 문서를 찾자"관련 있는" 문서가 반드시 "충분한" 문서는 아님
청크 최적화 (Chunking)문서를 적절한 크기로 잘라서 정밀도를 높이자최적 크기를 찾기 어렵고, 맥락이 잘릴 수 있음
프롬프트 엔지니어링LLM에게 "모르면 모른다고 해"라고 지시불충분한 컨텍스트에서 효과가 제한적
Re-ranking검색 결과를 재정렬해서 최상위에 좋은 문서를 배치"좋은 문서"의 기준이 모호함
GraphRAG (2024)지식 그래프로 문서 간 관계를 모델링구축 비용이 높고, 그래프가 불완전할 수 있음
Self-RAG (2024)LLM이 스스로 검색 필요성을 판단자기 판단이 항상 정확하지는 않음

이 모든 접근에는 공통된 맹점이 있었다. "검색된 문서에 질문에 대한 답이 실제로 들어있는지"를 확인하지 않았다는 것이다.

여기서 Google Research 팀이 등장한다.


"충분한 컨텍스트(Sufficient Context)"라는 새로운 렌즈

핵심 정의

Google Research 팀(Hailey Joren, Jianyi Zhang, Chun-Sung Ferng, Da-Cheng Juan, Ankur Taly, Cyrus Rashtchian)은 매우 단순하지만 강력한 질문을 던졌다:

"성실한 독자가 오직 주어진 컨텍스트만으로 질문에 답할 수 있는가?"

이 질문에 대한 답이 "예"이면, 그 컨텍스트는 충분(Sufficient)하다. "아니오"이면 불충분(Insufficient)하다.

핵심은 이것이다: 기존에는 검색된 문서가 질문과 "관련이 있는지(relevant)"만 따졌다. 하지만 관련이 있다고 해서 답을 도출할 수 있는 것은 아니다. 이것이 이 논문의 핵심 통찰이다.

논문의 형식적 정의

논문은 이 개념을 수학적으로 엄밀하게 정의한다:

인스턴스 q=(Q,C)q' = (Q, C)에서, 컨텍스트 CC가 질문 QQ에 대해 충분(sufficient)하다는 것은, CC에 포함된 정보만으로 QQ에 대한 **그럴듯한(plausible) 답 AA'**이 존재한다는 의미이다.

여기서 중요한 세 가지 세부 사항이 있다:

1
정답(Ground Truth)이 필요 없다
기존의 NLI(Natural Language Inference) 방식은 "정답"을 알아야 평가할 수 있었다. 하지만 Sufficient Context는 정답 없이도 "이 컨텍스트가 답변 가능한지"를 판별할 수 있다. 이것이 실제 프로덕션 환경에서 결정적인 장점이다 — 사용자가 어떤 질문을 할지 미리 알 수 없기 때문이다.
2
멀티홉 추론에 대한 기준
컨텍스트에 있는 여러 사실을 조합하는 것은 허용하지만, 컨텍스트에 명시되지 않은 연결고리를 추론해서는 안 된다. 예: "밥의 어머니는 뉴욕에서 태어났다"만으로는 "밥이 뉴욕에서 태어났다"고 답할 수 없다.
3
모호한 질문과 모호한 컨텍스트
질문이 모호하면 컨텍스트가 이를 명확히 할 수 있어야 한다. 컨텍스트가 여러 가능한 답을 포함하면, 어떤 답이 맞는지 구분할 수 있는 정보도 포함되어야 한다.

쉬운 예시로 이해하기

구체적인 예를 보자.

질문: "404 오류 코드는 유명한 실험실의 특정 방 번호에서 이름을 따왔다. 그 실험실은?"

충분한 컨텍스트 ✅
"Page Not Found" 오류(404 코드)는 CERN(유럽입자물리연구소)의 404호실 이름에서 유래했습니다. 이 방에는 오류 메시지의 중앙 데이터베이스가 보관되어 있었으며, 그중 "페이지를 찾을 수 없음" 오류도 포함되어 있었습니다.
불충분한 컨텍스트 ❌
404 오류("Page Not Found")는 웹 서버가 요청된 페이지를 찾을 수 없을 때 발생합니다. URL 오타, 페이지 삭제, 서버 문제 등 다양한 원인이 있습니다.

두 번째 컨텍스트도 404 오류에 대해 설명하고 있으니 "관련성"은 높다. 검색 시스템은 이 문서를 높은 순위로 반환할 것이다. 하지만 "CERN"이라는 핵심 답이 빠져 있기 때문에, 이 컨텍스트로는 질문에 답할 수 없다.

문제는, LLM이 이런 상황에서 "모르겠습니다"라고 하는 대신 그럴듯한 답을 지어낸다는 것이다.

더 많은 예시: 멀티홉 추론의 함정

실제로 더 복잡한 상황을 보자.

질문: "Lya Luft는 누구와 결혼했는가?"

충분한 컨텍스트 ✅
Lya Fett Luft는 브라질의 작가이자 번역가입니다. 그녀는 정신분석학자 Celso Luft와 결혼했습니다.
불충분한 컨텍스트 ❌
Lya Fett Luft(1938년생)는 브라질 히우그란지두술주 산타크루스두술 출신의 소설가, 에세이스트, 번역가입니다. 그녀는 독일계 가정에서 자랐으며 연방대학교에서 영문학과 언어학을 전공했습니다.

두 번째 컨텍스트는 Lya Luft에 대해 매우 상세한 정보를 제공한다. 출생 연도, 출신지, 학력까지. 하지만 정작 "누구와 결혼했는가"라는 질문의 답은 없다. 이것이 바로 "관련 있지만 충분하지 않은" 컨텍스트의 전형적인 예다.

일상적인 비유: 도서관에서 리포트 쓰기

📚
불충분한 컨텍스트
"한국 전쟁의 원인을 분석하라"는 과제를 받고 도서관에 갔다. 사서가 "한국 전쟁 참전국 목록"과 "한국의 지리적 특성"이라는 책을 줬다. 관련은 있지만, 이 책만으로는 "원인 분석"을 할 수 없다.
충분한 컨텍스트
사서가 "냉전 구도와 38선 분단의 배경", "남북한 정치 체제의 형성 과정", "1950년 6월 25일 전후 상황 분석" 같은 책을 줬다면, 이 자료만으로 질문에 답할 수 있다.

Autorater: AI가 컨텍스트의 충분성을 판별한다

인간의 판단을 자동화하기

"컨텍스트가 충분한지"를 매번 사람이 확인할 수는 없다. 실시간으로 쏟아지는 수천 건의 질문에 대해 일일이 전문가가 판단하는 것은 불가능하다. Google Research 팀은 이 판단을 자동화하는 시스템(Autorater)을 구축했다.

1단계 115개 질문+컨텍스트 쌍에 대해 인간 전문가가 "충분/불충분" 레이블을 부여 (Gold Standard). PopQA, FreshQA, Natural Questions, EntityQuestions에서 추출.
2단계 동일한 예시를 LLM에게 주고 "이 컨텍스트로 질문에 답할 수 있는가?" 판단하게 함
3단계 Chain-of-Thought 프롬프팅 + 1-shot 예시로 정확도 최적화
4단계 인간 판단과의 일치율 측정 → 최고 93% 이상 달성

분류 정확도 비교

다양한 자동 평가 방법의 성능을 비교한 결과다:

방법F1정확도정밀도재현율
Gemini 1.5 Pro (1-shot CoT)0.93593.0%0.9350.935
FLAMe (PaLM 24B 파인튜닝)0.89287.8%0.8530.935
Gemini 1.5 Pro (0-shot)0.87887.0%0.8850.871
TRUE-NLI (T5 11B)0.81882.6%0.9380.726
Contains GT (어휘 매칭)0.81080.9%0.8700.758

Gemini 1.5 Pro는 파인튜닝 없이도 프롬프팅만으로 93% 이상의 정확도를 달성했다. 특히 주목할 점:

  • TRUE-NLI는 정밀도가 0.938로 가장 높지만 재현율이 0.726으로 낮다. 즉, "충분하다"라고 판단한 것은 거의 맞지만, 실제로 충분한 것 중 27%를 놓친다. 이는 NLI(함의 판별) 접근의 한계다 — 함의(entailment)는 충분성을 내포하지만, 충분한 컨텍스트가 반드시 함의 관계에 있는 것은 아니기 때문이다.
  • Contains GT(정답 문자열 포함 여부)는 가장 단순한 방법이지만, 정답을 알아야 하므로 프로덕션에서는 사용할 수 없다.

데이터셋 분석: 생각보다 많은 컨텍스트가 불충분하다

연구팀은 세 가지 대표적인 QA 데이터셋을 분석하여 "실제로 검색된 컨텍스트 중 얼마나 충분한지"를 측정했다.

데이터셋별 충분한 컨텍스트 비율 (6,000 토큰 기준)
FreshQA (인간 큐레이션)
77.4%
HotPotQA (자동 검색)
46.2%
MuSiQue (멀티홉 추론)
44.6%

여기서 주목할 점이 있다:

  • FreshQA: 사람이 직접 관련 URL을 선별한 데이터셋 → 77.4%가 충분
  • HotPotQA: 자동 검색(e5-base-v2 retriever)으로 문서를 가져온 경우 → 46.2%만 충분
  • MuSiQue: 여러 문서를 연결해서 추론해야 하는 멀티홉 질문 → 44.6%만 충분

컨텍스트 길이와 충분성의 관계

흥미로운 발견: 더 많은 컨텍스트가 반드시 더 나은 결과를 보장하지 않는다.

데이터셋2,000 토큰6,000 토큰10,000 토큰
FreshQA63.7%77.4%77.4%
HotPotQA45.4%46.2%46.2%
MuSiQue33.4%44.6%44.6%

2,000에서 6,000 토큰으로 늘리면 개선이 있지만, 6,000에서 10,000으로 늘려도 변화가 거의 없다. 이는 "더 많은 텍스트를 넣는다고 답이 나타나지 않는다"는 것을 의미한다. 핵심 정보가 처음부터 없으면, 주변 문맥을 아무리 늘려도 소용없다.

핵심 인사이트: "좋은 검색"과 "충분한 컨텍스트"는 같은 것이 아니다. 기존 벤치마크에서 "골드 스탠다드"로 간주되던 문서들 중에도 실제로는 불충분한 것이 상당수 포함되어 있었다.


실험 결과: 충격적인 발견들

6개 모델 × 4가지 조건

연구팀은 다음 6개의 LLM을 4가지 조건에서 테스트했다:

대형 모델: Gemini 1.5 Pro, GPT-4o, Claude 3.5 Sonnet 소형/중형 모델: Gemini 1.5 Flash, Gemma 2 27B, Mistral 7B

4가지 조건:

  1. No Context — 컨텍스트 없이 (Closed Book)
  2. RAG + 충분한 컨텍스트 — 답이 들어있는 문서를 제공
  3. RAG + 불충분한 컨텍스트 — 관련은 있지만 답이 없는 문서를 제공
  4. RAG + 전체 컨텍스트 — 검색된 모든 문서를 그대로 제공

모델의 응답은 세 가지로 분류된다: 정답(Correct), 거부(Abstain, "모르겠습니다"), 환각(Hallucinate, 틀린 답).

인터랙티브 탐색: 직접 비교해 보세요

아래 도구에서 "충분한 컨텍스트"와 "불충분한 컨텍스트" 탭을 전환하며, 각 모델의 응답 패턴이 어떻게 극적으로 변하는지 직접 확인해 보자.

충분한 컨텍스트: 대형 모델은 잘한다

충분한 컨텍스트가 주어졌을 때의 성과 (인간 레이블 기준):

모델정답률거부율환각률
Claude 3.5 Sonnet85.7%11.1%3.2%
Gemini 1.5 Pro84.1%1.6%14.3%
GPT-4o82.5%4.8%12.7%
Gemini 1.5 Flash77.8%4.8%17.5%
Gemma 2 27B71.4%3.2%25.4%

대형 모델들(Claude, Gemini Pro, GPT-4o)은 충분한 컨텍스트가 있을 때 82~86%의 정답률을 기록했다. 특히 Claude 3.5 Sonnet은 환각률이 겨우 3.2%로 가장 낮았다. 이는 충분한 정보가 주어지면 LLM이 정말 잘 작동한다는 증거다.

불충분한 컨텍스트: 대혼란의 시작

하지만 불충분한 컨텍스트에서의 결과는 충격적이다:

모델정답률거부율환각률
GPT-4o23.1%61.5%15.4%
Gemini 1.5 Flash7.7%73.1%19.2%
Gemma 2 27B9.6%55.8%34.6%
Claude 3.5 Sonnet9.6%53.8%36.5%
Gemini 1.5 Pro9.6%50.0%40.4%

이 표에서 세 가지 핵심 발견을 읽을 수 있다:

발견 1: 정답률 급락. 충분한 컨텍스트에서 85.7%였던 Claude의 정답률이 불충분한 컨텍스트에서는 9.6%로 급락했다.

발견 2: 최강 모델이 최다 환각. 충분한 컨텍스트에서 가장 뛰어났던 Gemini 1.5 Pro가, 불충분한 컨텍스트에서는 환각률 40.4%로 최악의 성적을 기록했다. 아이러니하게도, "가장 똑똑한" 모델이 정보가 부족할 때 "가장 위험한" 모델이 된 것이다.

발견 3: "모르겠다"를 잘하는 모델이 다르다. GPT-4o는 불충분한 컨텍스트에서 거부율 61.5%로 비교적 솔직했다. Gemini 1.5 Flash는 73.1%로 가장 높은 거부율을 보였다. 하지만 Gemini 1.5 Pro는 거부율이 50%에 불과하고 나머지 절반 가까이를 환각으로 채웠다.


최대의 역설: 컨텍스트를 줬더니 오히려 더 틀린다?

정보의 바다에 빠져 혼란스러워하는 AI 로봇

이 논문에서 가장 놀라운 발견은 바로 이것이다:

RAG가 모델의 "모르겠다"라고 말하는 능력을 약화시킨다.

인터랙티브 탐색: 환각의 역설

아래에서 세 가지 조건을 전환하며, 컨텍스트를 주는 것이 어떻게 환각을 증가시키는지 직접 확인해 보자. 특히 "컨텍스트 없음"과 "불충분한 컨텍스트"를 비교해 보라.

Gemma 2 27B의 극적인 사례 (MuSiQue 데이터셋)

10.2%
컨텍스트 없을 때 오답률
66.1%
불충분한 컨텍스트일 때 오답률
6.5×
오답률 증가 배수

Gemma 2 27B 모델의 경우, 컨텍스트를 아예 주지 않았을 때는 오답률이 10.2%에 불과했다. 많은 경우 "모르겠습니다"라고 솔직하게 거부했기 때문이다.

그런데 불충분한 컨텍스트를 주자 오답률이 66.1%로 6.5배 폭증했다. 왜 이런 일이 벌어지는 걸까?

데이터로 더 자세히 보기: RAG 전후 비교

RAG 적용 전후의 거부율 변화를 보면 이 현상이 더 명확해진다:

모델RAG 없음: 거부율RAG 있음: 거부율변화
Gemini 1.5 Pro100%18.6%▼81.4%p
Claude 3.5 Sonnet84.1%52.0%▼32.1%p
GPT-4o34.4%31.2%▼3.2%p
Gemma 2 27B80.0%21.8%▼58.2%p

Gemini 1.5 Pro는 컨텍스트가 없을 때 100% 거부했다 — 가장 안전한 선택이었다. 하지만 RAG를 통해 컨텍스트를 받자 거부율이 18.6%로 급락했다. 81.4%포인트의 거부율 감소 — 이것이 환각으로 이어진 것이다.

메커니즘: 자신감의 함정

컨텍스트 없음 LLM: "이 질문에 대한 정보가 내 학습 데이터에 없다. 모르겠다고 하자." → 솔직한 거부
불충분한 컨텍스트 LLM: "오, 관련 문서가 있네! 여기에 답이 있을 거야..." → 문서에서 단서를 조합 → 자신 있게 틀린 답을 생성
결과 컨텍스트가 LLM의 "자신감"을 높이면서, 동시에 "거부 능력"을 약화시킴 → 환각 폭증

이것은 인간 심리에서도 발견되는 패턴이다. 심리학에서 더닝-크루거 효과(Dunning-Kruger Effect)라고 불리는 현상과 유사하다. 약간의 정보가 주어지면 자신이 충분히 안다고 착각하게 되는 것이다.

LLM의 경우, 컨텍스트 문서가 제공되면 모델은 "답변할 수 있는 상태"로 전환된다. 컨텍스트에 관련 키워드가 포함되어 있으면, 모델은 그 키워드를 조합해서 그럴듯한 답을 만들어낸다 — 실제로 그 답이 컨텍스트에서 도출 가능한지와 무관하게.

실제 비즈니스에서의 시나리오

실전 시나리오 1: 기업 내부 RAG 시스템
질문 "2025년 3분기 서울 지점 매출 대비 부산 지점 매출 비율은?"
검색된 문서 "2025년 3분기 서울 지점 매출: 45억 원" (부산 지점 데이터는 검색되지 않음)
위험한 응답 "2025년 3분기 서울 지점 매출은 45억 원이며, 부산 지점 매출은 약 28억 원으로 추정되어 비율은 약 62%입니다."
28억은 LLM이 만들어낸 숫자. 실제 데이터가 없었음.
실전 시나리오 2: 고객 서비스 챗봇
질문 "프리미엄 플랜에서 다운그레이드하면 기존 데이터는 어떻게 되나요?"
검색된 문서 프리미엄 플랜의 기능 목록, 가격 정책 (다운그레이드 관련 정보는 없음)
위험한 응답 "다운그레이드 시 30일간 데이터가 보존되며, 이후 자동으로 삭제됩니다."
실제 정책과 다를 수 있는 허구의 답변. 고객이 데이터를 잃을 위험.

이런 상황에서 경영진이나 고객이 이 답변을 근거로 의사결정을 내린다면? 불충분한 컨텍스트로 인한 환각이 현실에서 가장 위험한 이유가 바로 여기에 있다.


놀라운 반전: 불충분한 컨텍스트에서도 정답을 맞춘다?

이 논문의 또 다른 흥미로운 발견은 반대 방향의 결과다. 모델들은 불충분한 컨텍스트에서도 35~62%의 정답률을 기록했다 (HotPotQA 기준). 어떻게 이것이 가능한가?

연구팀은 이 현상을 8가지 패턴으로 분류했다:

패턴설명예시
Yes/No 질문50% 확률로 맞출 수 있음"이 영화가 2020년 이후 개봉했는가?"
제한된 선택지답의 범위가 좁아 추측 가능"수도는?" — 전 세계 수도는 200개 미만
멀티홉: 단편부분 정보 + 사전학습 지식으로 추론컨텍스트에 A→B만 있고 B→C는 사전학습에서
Closed-book 정답사전학습에서 이미 알고 있던 정보유명인, 역사적 사실 등
모호한 질문올바른 해석을 우연히 선택동명이인 중 맞는 사람을 고름
평가자 오류Autorater나 LLMEval의 판단 오류실제로는 충분했지만 불충분으로 분류

이 발견은 중요한 시사점을 준다: 단순히 "컨텍스트가 불충분하면 항상 거부하라"는 전략은 최적이 아니다. 모델이 사전학습 지식으로 맞출 수 있는 경우까지 거부하면, 오히려 전체 정확도가 떨어지기 때문이다. 이것이 바로 연구팀이 Selective Generation이라는 더 정교한 접근을 제안하게 된 배경이다.


해결책: Selective Generation — 모를 때는 멈추는 AI

정보를 분석하고 필터링하는 AI 로봇

핵심 아이디어: 답하지 않는 것이 최선일 때가 있다

연구팀이 제안한 해결책의 이름은 Selective Generation이다. 핵심은 간단하다: "환각할 가능성이 높으면, 차라리 답하지 않는다."

이를 위해 두 가지 신호를 결합한다:

Selective Generation 프레임워크
신호 1: 자기 평가 신뢰도
P(True) — 같은 질문에 여러 번 답하게 해서 답변 일관성 측정
P(Correct) — 모델 스스로 자기 답변의 정확도를 추정
신호 2: 컨텍스트 충분도
Autorater가 판별한 충분/불충분 이진 레이블
정답 없이도 판단 가능 — 실전 배포의 핵심 장점
결합: 로지스틱 회귀
두 신호를 결합하여 "이 응답이 환각일 확률"을 예측
임계값(threshold) 설정으로 정확도↔커버리지 트레이드오프 조절

왜 두 신호를 결합해야 하는가?

자기 평가 신뢰도만으로는 부족하다. 모델이 "확신한다"고 해도 불충분한 컨텍스트에서는 환각일 수 있다 — 앞서 본 Gemini 1.5 Pro의 사례처럼. 환각은 종종 높은 자신감과 함께 나타난다.

컨텍스트 충분도만으로도 부족하다. 앞 섹션에서 봤듯이, 불충분한 컨텍스트에서도 35~62%의 정답률을 보이는 경우가 있다. 이때 무조건 거부하면 정확도가 오히려 떨어진다.

두 신호를 로지스틱 회귀로 결합하면, 각 신호가 놓치는 케이스를 서로 보완한다. 구체적으로:

  • 높은 신뢰도 + 충분한 컨텍스트 → 답변 (높은 정확도 기대)
  • 낮은 신뢰도 + 불충분한 컨텍스트 → 거부 (환각 가능성 높음)
  • 높은 신뢰도 + 불충분한 컨텍스트 → 신중하게 판단 (사전학습 지식일 수 있음)
  • 낮은 신뢰도 + 충분한 컨텍스트 → 신중하게 판단 (모델 이해 실패일 수 있음)

결과: 2~10% 정확도 향상

Selective Generation 적용 후 정확도 향상 (Coverage 기준 최대 개선치)
Gemma 2 27B (HotPotQA)
+10%p 최대
Gemini 1.5 Pro (HotPotQA)
+5%p
GPT-4o (HotPotQA)
+3%p
전체 평균
+2~10%p

특히 주목할 점은 Gemma 2 27B(비교적 소형 모델)에서 10 퍼센트포인트 이상의 정확도 향상을 달성했다는 것이다. 이는 소형 모델이 대형 모델보다 컨텍스트 충분도 신호의 혜택을 더 크게 받는다는 의미다 — 비용 효율적인 모델을 더 안전하게 사용할 수 있다는 뜻이기도 하다.

이 접근법의 두 가지 핵심 장점

1
생성과 독립적으로 작동
Selective Generation은 모델을 fine-tuning하지 않는다. 생성 과정과 분리되어 있어, 기존 RAG 파이프라인에 후처리(post-processing)로 추가할 수 있다. 따라서 LLM의 원래 능력을 훼손할 위험이 없다.
2
도메인별 임계값 조정 가능
의료·법률 분야처럼 환각이 치명적인 곳은 높은 임계값을, 일반 대화처럼 커버리지가 중요한 곳은 낮은 임계값을 설정할 수 있다. 같은 모델, 같은 시스템으로 다양한 요구 수준에 대응 가능하다.

Fine-tuning으로 해결할 수 있을까?

"모르겠습니다"를 가르치는 것은 어렵다

"그냥 LLM을 학습시켜서 모를 때 모른다고 하게 하면 안 되나?"

연구팀은 이 직관적인 아이디어를 직접 테스트했다. Mistral 7B를 대상으로 LoRA(rank=4, alpha=8)를 사용해 세 가지 학습 데이터 구성을 비교했다:

학습 데이터구성정답률 (MuSiQue)거부율환각률
Vanilla RAGfine-tuning 없음 (기준)28.8%11.8%59.4%
Mix 1정답만으로 학습31.4%0%68.6%
Mix 220% 랜덤 "모르겠다" 포함23.0%1.2%75.8%
Mix 320% 불충분 시 "모르겠다" 포함23.0%2.2%74.8%

결과는 실망스러웠다:

  • Mix 1: 정답률은 올라갔지만 거부율이 0% — 단 한 번도 "모르겠다"고 하지 않았다. "항상 답변해야 한다"는 패턴을 학습해버린 것이다.
  • Mix 2, 3: "모르겠다"를 학습 데이터에 포함시켰지만, 거부율은 여전히 1~2%에 불과. 오히려 환각률이 Vanilla RAG보다 더 높아졌다.

이 실험은 중요한 시사점을 준다: 환각 문제는 모델 학습 단계에서만 해결할 수 없다. 추론(inference) 단계에서의 메커니즘 — Selective Generation 같은 — 이 반드시 필요하다.


왜 이 연구가 이전 RAG 연구와 다른가?

기존 접근Sufficient Context 접근
검색 품질(관련성) 향상에 집중검색 결과의 충분성 판별에 집중
모델이 더 잘 답하게 하는 것이 목표모델이 모를 때 멈추게 하는 것이 목표
환각 원인을 모델 능력의 문제로 봄환각 원인을 컨텍스트 품질의 문제로 재정의
정답 레이블이 필요한 평가 방식정답 없이 컨텍스트만으로 평가 가능
더 많은 컨텍스트 = 더 좋은 결과 가정더 많은 컨텍스트가 더 많은 환각을 유발할 수 있음을 발견
모델 fine-tuning으로 해결 시도추론 단계의 후처리로 해결 (비침습적)

특히 "정답 없이 평가 가능"이라는 점이 실전에서 결정적이다. 실제 프로덕션 환경에서는 사용자가 어떤 질문을 할지 미리 알 수 없고, 따라서 정답 레이블도 없다. Sufficient Context 접근은 정답을 몰라도 "이 컨텍스트가 답변에 충분한지"를 판별할 수 있기 때문에, 실시간 프로덕션 시스템에 바로 적용할 수 있다.


2026년, 이 연구가 어떻게 활용되고 있는가?

Google Vertex AI RAG Engine에 통합

이 연구의 가장 직접적인 성과는 Google Cloud의 Vertex AI RAG EngineLLM Re-Ranker로 통합된 것이다. 기존에는 검색 결과를 의미적 유사도(semantic similarity)만으로 정렬했다면, 이제는 "이 문서가 질문에 답하기에 충분한 정보를 포함하고 있는가"를 기준으로 재정렬한다.

사용자 질문 Dense Retriever LLM Re-Ranker (충분도 기반) 충분한 문서 우선 정렬 LLM Generator

산업 전반의 트렌드

2026년 현재, Sufficient Context 개념은 더 넓은 맥락에서 RAG 품질 관리의 핵심 요소로 자리잡고 있다:

2026년 RAG 품질 관리 파이프라인
1. 검색 (Retrieval)
관련 문서를 빠르게 찾기
Dense + Sparse 하이브리드 검색
2. 충분도 검증 (Sufficiency Check)
검색된 문서가 질문에 답하기에 충분한지 판별
이 논문의 핵심 기여
3. 적응적 생성 (Adaptive Generation)
충분 → 답변 생성
불충분 → 추가 검색 또는 거부
Selective Generation

실전 적용을 위한 세 가지 전략

전략 1 생성 전 충분도 확인: LLM이 답변을 생성하기 전에 Autorater로 컨텍스트 충분도를 체크한다. 불충분하면 "답변할 수 있는 정보가 부족합니다"라고 알린다.
전략 2 추가 검색 또는 재정렬: 불충분한 컨텍스트가 감지되면, 더 많은 문서를 검색하거나 기존 결과를 충분도 기준으로 재정렬(re-rank)한다. Agentic RAG와 자연스럽게 결합된다.
전략 3 거부 임계값 조정: 신뢰도 + 충분도 점수의 임계값을 비즈니스 요구에 맞게 튜닝한다. 의료·법률 분야는 높은 임계값(보수적), 일반 대화는 낮은 임계값(적극적).

Agentic RAG와의 결합: 2026년의 최전선

2026년 현재 가장 주목받는 방향은 Agentic RAG와 Sufficient Context의 결합이다. 기존 RAG가 "한 번 검색하고 답변"하는 구조였다면, Agentic RAG는 AI 에이전트가 검색-판단-재검색을 반복하는 구조다.

생각 "이 질문에 답하려면 어떤 정보가 필요할까?"
검색 관련 문서 검색 → 5개 문서 반환
충분도 판별 Autorater: "불충분 — 핵심 정보가 누락되어 있음"
재검색 누락된 정보를 타겟으로 추가 검색
재판별 Autorater: "충분 — 답변에 필요한 모든 정보가 있음"
답변 생성 충분한 컨텍스트를 기반으로 정확한 답변 생성

이 패턴에서 Sufficient Context는 에이전트의 "검색 품질 센서" 역할을 한다. 충분할 때까지 검색을 계속하되, 일정 횟수를 초과하면 솔직하게 거부하는 것이다.

앞으로의 방향

연구팀과 학계가 제시하는 후속 연구 방향:

1
Fine-grained 충분도 점수
현재의 이진 분류(충분/불충분)를 연속적인 점수(0.0~1.0)로 발전시키면, 더 세밀한 임계값 조정이 가능하다. "80% 충분하지만 일부 세부사항 누락"과 "완전히 관련 없음"을 구분할 수 있다.
2
멀티모달 RAG 확장
텍스트뿐만 아니라 이미지, 표, 차트가 포함된 문서에서의 충분성 판별. 의료 영상이나 기술 설계도면을 참조하는 RAG 시스템에 특히 중요하다.
3
검색 알고리즘과 충분도의 관계
어떤 검색 방법(dense, sparse, hybrid, graph-based)이 "충분한 컨텍스트"를 더 잘 가져오는가? 이 질문에 대한 답은 RAG 아키텍처 설계에 직접적인 영향을 줄 것이다.
4
모델 후학습에 충분도 신호 활용
RLHF나 DPO 같은 학습 과정에 "불충분한 컨텍스트에서 거부"를 보상 신호로 통합. 모델 자체가 충분성을 인식하는 능력을 내재화하는 방향.

핵심 정리: 기억해야 할 7가지

1 "관련성"과 "충분성"은 다르다. 검색된 문서가 질문과 관련 있다고 해서, 그 문서로 질문에 답할 수 있는 것은 아니다. 이 논문의 핵심 통찰이다.
2 불충분한 컨텍스트는 RAG를 더 위험하게 만든다. 컨텍스트가 없을 때보다 불충분한 컨텍스트가 있을 때 환각이 최대 6.5배 증가한다 (Gemma 2 27B 기준).
3 가장 강력한 모델이 가장 위험할 수 있다. Gemini 1.5 Pro는 충분한 컨텍스트에서 최고 성능을 보이지만, 불충분할 때 환각률도 최고(40.4%)다.
4 더 많은 컨텍스트가 항상 더 나은 것은 아니다. 6,000 토큰 이후로는 충분도가 거의 변하지 않았다. 핵심 정보가 없으면 양을 늘려도 소용없다.
5 충분도는 자동 판별 가능하다. Gemini 1.5 Pro를 활용한 Autorater가 93% 이상의 정확도로 인간 판단과 일치한다. 정답 레이블 없이도 작동한다.
6 Fine-tuning만으로는 부족하다. "모르겠다"를 학습 데이터에 넣어도 모델의 거부 능력은 개선되지 않았다. 추론 단계의 메커니즘이 필요하다.
7 Selective Generation이 현실적인 해법이다. 충분도 신호 + 자기 평가 신뢰도를 결합하여 2~10%p 정확도 향상을 달성할 수 있다. 이미 Google Vertex AI에 상용화되었다.

마치며: AI에게 "모르겠다"를 가르치는 것의 가치

이 연구의 가장 깊은 통찰은 기술적인 것이 아니다. 그것은 "아는 것과 모르는 것의 경계를 인식하는 능력"이 지능의 핵심이라는 철학적 명제다.

소크라테스는 "나는 내가 모른다는 것을 안다"라고 말했다. 2500년이 지난 지금, 우리는 AI에게 같은 능력을 가르치려 하고 있다. Google Research 팀의 연구는 그 여정에서 중요한 이정표를 세웠다.

RAG 시스템을 구축하거나 운영하고 있다면, "검색 품질"만큼이나 "검색된 컨텍스트의 충분성"에 주목해야 한다. 더 많은 문서를 넣는 것이 아니라, 정말 답을 도출할 수 있는 문서인지를 확인하는 것 — 이것이 2026년 RAG 시스템의 핵심 경쟁력이 될 것이다.

그리고 이 개념은 RAG를 넘어 AI 시스템 전반에 시사점을 준다. 입력의 품질이 출력의 품질을 결정한다. "Garbage in, garbage out"이라는 오래된 격언이 AI 시대에 다시 한번 입증된 것이다. 다만 이제는 "garbage"가 아니라 "insufficient"라는 더 미묘하고 위험한 문제를 다루고 있을 뿐이다.


논문 정보:

  • 제목: Sufficient Context: A New Lens on Retrieval Augmented Generation Systems
  • 저자: Hailey Joren, Jianyi Zhang, Chun-Sung Ferng, Da-Cheng Juan, Ankur Taly, Cyrus Rashtchian
  • 발표: ICLR 2025 (International Conference on Learning Representations)
  • 링크: arXiv:2411.06037 | Google Research 블로그
  • 인용 수: 45+ (2026년 4월 기준)

함께 읽으면 좋은 글: