coredot.today
RAG의 숨겨진 약점: '충분한 컨텍스트'가 환각을 결정한다 — Google ICLR 2025 논문 심층 분석
블로그로 돌아가기
RAGSufficient ContextLLM 환각ICLR 2025Selective GenerationVertex AI

RAG의 숨겨진 약점: '충분한 컨텍스트'가 환각을 결정한다 — Google ICLR 2025 논문 심층 분석

RAG 시스템에서 왜 여전히 환각이 발생하는가? Google Research가 ICLR 2025에서 발표한 'Sufficient Context' 개념이 그 답을 제시한다. 컨텍스트가 많다고 좋은 게 아니다 — 충분해야 한다.

코어닷투데이2026-04-0144

들어가며: 참고자료를 줬는데 왜 거짓말을 해?

시험장 풍경을 상상해 보자.

학생에게 오픈북 시험을 치르게 한다. 교과서를 마음껏 펼쳐 봐도 된다고 했다. 그런데 시험이 끝나고 채점을 해보니, 이 학생이 교과서에 없는 내용을 자신 있게 지어내서 답안지에 적어놓았다. 심지어 교과서를 안 줬을 때보다 더 많이 틀렸다.

말도 안 되는 이야기 같지만, 이것이 바로 오늘날 RAG(Retrieval-Augmented Generation) 시스템에서 실제로 일어나고 있는 일이다.

AI가 참고자료를 보면서도 엉뚱한 답을 하는 모습을 묘사한 일러스트레이션

2023년, 뉴욕의 변호사 스티븐 슈워츠는 ChatGPT를 사용해 법정 서류를 작성했다가 큰 곤욕을 치렀다. AI가 실존하지 않는 판례 6건을 자신 있게 인용했기 때문이다. 재판부가 확인 요청을 하자 슈워츠는 ChatGPT에 "이 판례들이 진짜 존재하냐"고 다시 물었고, ChatGPT는 "네, 확인 가능합니다"라고 답했다. 물론 전부 거짓이었다.

이 사건 이후 업계의 해법은 명확해 보였다. "외부 문서를 검색해서 LLM에 넣어주면 되잖아!" — 이것이 바로 RAG다. 하지만 Google Research 팀은 이 "해법"에 근본적인 질문을 던졌다.

"문서를 줬다는 것만으로는 부족하다. 그 문서에 답이 들어있는지가 핵심이다."

이것이 바로 ICLR 2025(세계 최고 수준의 AI 학술대회)에서 발표된 논문 "Sufficient Context: A New Lens on Retrieval Augmented Generation Systems"의 핵심 주장이다. 이 글에서는 이 연구가 왜 중요한지, 어떤 발견을 했는지, 그리고 2026년 현재 이 개념이 어떻게 실전에 적용되고 있는지를 자세히 살펴본다.


RAG는 왜 탄생했는가? — 역사적 배경

LLM의 태생적 한계

GPT-3가 세상을 놀라게 한 2020년, 사람들은 금세 LLM의 근본적인 한계를 발견했다.

1
지식 단절 (Knowledge Cutoff)
학습 데이터 이후의 정보를 전혀 모른다. "어제 환율이 얼마야?"라는 질문에 답할 수 없다.
2
환각 (Hallucination)
모르는 것을 모른다고 하지 않고, 그럴듯한 거짓 정보를 자신 있게 생성한다.
3
출처 부재
답변의 근거를 추적할 수 없다. "어디서 그 정보를 얻었어?"라고 물어도 답하지 못한다.

2020년: RAG의 탄생

Meta AI (당시 Facebook AI Research)의 Patrick Lewis 등이 2020년 발표한 논문 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"에서 RAG라는 개념이 처음 제안되었다.

아이디어는 직관적이다:

사용자 질문 문서 검색 (Retriever) 관련 문서 + 질문 LLM (Generator) 답변

LLM이 모든 것을 "외워서" 답하는 대신, 필요한 정보를 그때그때 검색해서 참고하게 하는 것이다. 마치 오픈북 시험처럼.

이 접근은 세 가지 문제를 동시에 해결하는 것처럼 보였다:

  • 지식 단절 → 최신 문서를 검색하면 된다
  • 환각 → 근거 문서가 있으니 지어낼 필요가 없다
  • 출처 부재 → 어떤 문서를 참조했는지 추적 가능하다

RAG는 빠르게 산업 표준이 되었다. 2024년까지 엔터프라이즈 AI 솔루션의 대다수가 RAG를 핵심 아키텍처로 채택했다.

하지만 현실은 달랐다

RAG를 도입한 기업들은 곧 불편한 현실과 마주했다. RAG를 적용해도 환각이 사라지지 않았다. 오히려 어떤 경우에는 RAG 없이보다 더 자주 틀렸다.

이 역설적인 현상을 설명하기 위해, 기존 연구들은 다양한 접근을 시도했다:

접근법핵심 아이디어한계
더 나은 검색 (Dense Retrieval)의미적으로 더 관련 높은 문서를 찾자"관련 있는" 문서가 반드시 "충분한" 문서는 아님
청크 최적화 (Chunking)문서를 적절한 크기로 잘라서 정밀도를 높이자최적 크기를 찾기 어렵고, 맥락이 잘릴 수 있음
프롬프트 엔지니어링LLM에게 "모르면 모른다고 해"라고 지시불충분한 컨텍스트에서 효과가 제한적
Re-ranking검색 결과를 재정렬해서 최상위에 좋은 문서를 배치"좋은 문서"의 기준이 모호함

이 모든 접근에는 공통된 맹점이 있었다. "검색된 문서에 질문에 대한 답이 실제로 들어있는지"를 확인하지 않았다는 것이다.


"충분한 컨텍스트(Sufficient Context)"라는 새로운 렌즈

핵심 정의

Google Research 팀(Hailey Joren, Jianyi Zhang, Chun-Sung Ferng, Da-Cheng Juan, Ankur Taly, Cyrus Rashtchian)은 매우 단순하지만 강력한 질문을 던졌다:

"성실한 독자가 오직 주어진 컨텍스트만으로 질문에 답할 수 있는가?"

이 질문에 대한 답이 "예"이면, 그 컨텍스트는 충분(Sufficient)하다. "아니오"이면 불충분(Insufficient)하다.

핵심은 이것이다: 기존에는 검색된 문서가 질문과 "관련이 있는지(relevant)"만 따졌다. 하지만 관련이 있다고 해서 답을 도출할 수 있는 것은 아니다.

쉬운 예시로 이해하기

구체적인 예를 보자.

질문: "404 오류 코드는 유명한 실험실의 특정 방 번호에서 이름을 따왔다. 그 실험실은?"

충분한 컨텍스트 ✅
"Page Not Found" 오류(404 코드)는 CERN(유럽입자물리연구소)의 404호실 이름에서 유래했습니다. 이 방에는 오류 메시지의 중앙 데이터베이스가 보관되어 있었으며, 그중 "페이지를 찾을 수 없음" 오류도 포함되어 있었습니다.
불충분한 컨텍스트 ❌
404 오류("Page Not Found")는 웹 서버가 요청된 페이지를 찾을 수 없을 때 발생합니다. URL 오타, 페이지 삭제, 서버 문제 등 다양한 원인이 있습니다.

두 번째 컨텍스트도 404 오류에 대해 설명하고 있으니 "관련성"은 높다. 검색 시스템은 이 문서를 높은 순위로 반환할 것이다. 하지만 "CERN"이라는 핵심 답이 빠져 있기 때문에, 이 컨텍스트로는 질문에 답할 수 없다.

문제는, LLM이 이런 상황에서 "모르겠습니다"라고 하는 대신 그럴듯한 답을 지어낸다는 것이다.

일상적인 비유로 풀어보면

이 개념을 일상에 비유하면 더 쉽게 이해할 수 있다:

📚
도서관에서 리포트 쓰기
"한국 전쟁의 원인을 분석하라"는 과제를 받고 도서관에 갔다. 사서가 "한국 전쟁 참전국 목록"과 "한국의 지리적 특성"이라는 책을 줬다. 관련은 있지만, 이 책만으로는 "원인 분석"을 할 수 없다. 이것이 불충분한 컨텍스트다.
충분한 컨텍스트라면
사서가 "냉전 구도와 38선 분단의 배경", "남북한 정치 체제의 형성 과정", "1950년 6월 25일 전후 상황 분석" 같은 책을 줬다면, 이 자료만으로 질문에 답할 수 있다. 이것이 충분한 컨텍스트다.

Autorater: AI가 컨텍스트의 충분성을 판별한다

인간의 판단을 자동화하기

"컨텍스트가 충분한지"를 매번 사람이 확인할 수는 없다. Google Research 팀은 이 판단을 자동화하는 시스템(Autorater)을 구축했다.

1단계 115개 질문+컨텍스트 쌍에 대해 인간 전문가가 "충분/불충분" 레이블을 부여 (Gold Standard)
2단계 동일한 예시를 LLM에게 주고 "이 컨텍스트로 질문에 답할 수 있는가?" 판단하게 함
3단계 Chain-of-Thought 프롬프팅 + 1-shot 예시로 정확도 최적화
4단계 인간 판단과의 일치율 측정 → 최고 93% 이상 달성

분류 정확도 비교

다양한 자동 평가 방법의 성능을 비교한 결과다:

Sufficient Context 자동 분류 정확도
Gemini 1.5 Pro (1-shot CoT)
~93%+ 최고
FLAMe (PaLM 24B 파인튜닝)
~88%
TRUE-NLI (t5_xxl)
~78%
Contains GT (어휘 매칭)
~62%

Gemini 1.5 Pro는 파인튜닝 없이도 프롬프팅만으로 93% 이상의 정확도를 달성했다. 이는 인간 전문가의 판단과 거의 일치하는 수준이다. 핵심은 "관련성"이 아닌 "충분성"을 판별하는 것이며, 이를 위해서는 언어 이해 능력이 뛰어난 대형 모델이 필요하다는 점이다.


데이터셋 분석: 생각보다 많은 컨텍스트가 불충분하다

연구팀은 세 가지 대표적인 QA 데이터셋을 분석하여 "실제로 검색된 컨텍스트 중 얼마나 충분한지"를 측정했다.

데이터셋별 충분한 컨텍스트 비율
FreshQA (인간 큐레이션)
77.4%
HotPotQA (자동 검색)
~55%
MuSiQue (멀티홉 추론)
~35%

여기서 주목할 점이 있다:

  • FreshQA: 사람이 직접 관련 문서를 선별한 데이터셋 → 77.4%가 충분
  • HotPotQA: 자동 검색(dense retriever)으로 문서를 가져온 경우 → 약 55%만 충분
  • MuSiQue: 여러 문서를 연결해서 추론해야 하는 멀티홉 질문 → 약 35%만 충분

핵심 인사이트: 자동 검색 시스템이 가져온 문서 중 상당수가 "관련은 있지만 충분하지 않다." 특히 복잡한 질문일수록 이 비율은 낮아진다. "좋은 검색"과 "충분한 컨텍스트"는 같은 것이 아니다.

또한 연구팀은 흥미로운 발견을 했다. 기존에 "골드 스탠다드(정답)"으로 간주되던 문서들 중에도 실제로는 불충분한 것이 상당수 포함되어 있었다. 이는 기존 벤치마크의 품질 자체에 의문을 제기하는 결과다.


실험 결과: 충격적인 발견들

6개 모델 × 4가지 조건

연구팀은 다음 6개의 LLM을 4가지 조건에서 테스트했다:

대형 모델: Gemini 1.5 Pro, GPT-4o, Claude 3.5 Sonnet 소형/중형 모델: Gemini 1.5 Flash, Gemma 2 27B, Mistral 7B

4가지 조건:

  1. No Context — 컨텍스트 없이 (Closed Book)
  2. RAG + 충분한 컨텍스트 — 답이 들어있는 문서를 제공
  3. RAG + 불충분한 컨텍스트 — 관련은 있지만 답이 없는 문서를 제공
  4. RAG + 전체 컨텍스트 — 검색된 모든 문서를 그대로 제공

모델의 응답은 세 가지로 분류된다: 정답(Correct), 거부(Abstain, "모르겠습니다"), 환각(Hallucinate, 틀린 답).

인터랙티브 탐색: 직접 비교해 보세요

아래 도구에서 "충분한 컨텍스트"와 "불충분한 컨텍스트" 탭을 전환하며, 각 모델의 응답 패턴이 어떻게 극적으로 변하는지 직접 확인해 보자.

충분한 컨텍스트: 대형 모델은 잘한다

충분한 컨텍스트가 주어졌을 때의 성과:

모델정답률거부율환각률
Claude 3.5 Sonnet85.7%11.1%3.2%
Gemini 1.5 Pro84.1%1.6%14.3%
GPT-4o82.5%4.8%12.7%
Gemini 1.5 Flash77.8%4.8%17.5%
Gemma 2 27B71.4%3.2%25.4%

대형 모델들(Claude, Gemini Pro, GPT-4o)은 충분한 컨텍스트가 있을 때 82~86%의 정답률을 기록했다. 특히 Claude 3.5 Sonnet은 환각률이 겨우 3.2%로 가장 낮았다. 이는 충분한 정보가 주어지면 LLM이 정말 잘 작동한다는 증거다.

불충분한 컨텍스트: 대혼란의 시작

하지만 불충분한 컨텍스트에서의 결과는 충격적이다:

모델정답률거부율환각률
GPT-4o23.1%61.5%15.4%
Gemini 1.5 Flash7.7%73.1%19.2%
Gemma 2 27B9.6%55.8%34.6%
Claude 3.5 Sonnet9.6%53.8%36.5%
Gemini 1.5 Pro9.6%50.0%40.4%

이 표에서 세 가지 핵심 발견을 읽을 수 있다:

발견 1: 정답률 급락. 충분한 컨텍스트에서 85.7%였던 Claude의 정답률이 불충분한 컨텍스트에서는 9.6%로 급락했다.

발견 2: 최강 모델이 최다 환각. 충분한 컨텍스트에서 가장 뛰어났던 Gemini 1.5 Pro가, 불충분한 컨텍스트에서는 환각률 40.4%로 최악의 성적을 기록했다. 아이러니하게도, "가장 똑똑한" 모델이 정보가 부족할 때 "가장 위험한" 모델이 된 것이다.

발견 3: "모르겠다"를 잘하는 모델이 다르다. GPT-4o는 불충분한 컨텍스트에서 거부율 61.5%로 비교적 솔직했다. Gemini 1.5 Flash는 73.1%로 가장 높은 거부율을 보였다. 하지만 Gemini 1.5 Pro는 거부율이 50%에 불과하고 나머지 절반 가까이를 환각으로 채웠다.


최대의 역설: 컨텍스트를 줬더니 오히려 더 틀린다?

정보의 바다에 빠져 혼란스러워하는 AI 로봇

이 논문에서 가장 놀라운 발견은 바로 이것이다:

RAG가 모델의 "모르겠다"라고 말하는 능력을 약화시킨다.

Gemma 2 27B의 극적인 사례

10.2%
컨텍스트 없을 때 오답률
66.1%
불충분한 컨텍스트일 때 오답률
6.5×
오답률 증가 배수

Gemma 2 27B 모델의 경우, 컨텍스트를 아예 주지 않았을 때는 오답률이 10.2%에 불과했다. 많은 경우 "모르겠습니다"라고 솔직하게 거부했기 때문이다.

그런데 불충분한 컨텍스트를 주자 오답률이 66.1%로 6.5배 폭증했다. 왜 이런 일이 벌어지는 걸까?

메커니즘: 자신감의 함정

컨텍스트 없음 LLM: "이 질문에 대한 정보가 내 학습 데이터에 없다. 모르겠다고 하자." → 솔직한 거부
불충분한 컨텍스트 LLM: "오, 관련 문서가 있네! 여기에 답이 있을 거야..." → 문서에서 단서를 조합 → 자신 있게 틀린 답을 생성
결과 컨텍스트가 LLM의 "자신감"을 높이면서, 동시에 "거부 능력"을 약화시킴 → 환각 폭증

이것은 인간 심리에서도 발견되는 패턴이다. 심리학에서 더닝-크루거 효과(Dunning-Kruger Effect)라고 불리는 현상과 유사하다. 약간의 정보가 주어지면 자신이 충분히 안다고 착각하게 되는 것이다.

LLM의 경우, 컨텍스트 문서가 제공되면 모델은 "답변할 수 있는 상태"로 전환된다. 컨텍스트에 관련 키워드가 포함되어 있으면, 모델은 그 키워드를 조합해서 그럴듯한 답을 만들어낸다 — 실제로 그 답이 컨텍스트에서 도출 가능한지와 무관하게.

실제 비즈니스에서의 시나리오

실전 시나리오: 기업 내부 RAG 시스템
질문 "2025년 3분기 서울 지점 매출 대비 부산 지점 매출 비율은?"
검색된 문서 "2025년 3분기 서울 지점 매출: 45억 원" (부산 지점 데이터는 검색되지 않음)
위험한 응답 "2025년 3분기 서울 지점 매출은 45억 원이며, 부산 지점 매출은 약 28억 원으로 추정되어 비율은 약 62%입니다."
28억은 LLM이 만들어낸 숫자. 실제 데이터가 없었음.

이런 상황에서 경영진이 이 답변을 근거로 의사결정을 내린다면 어떻게 될까? 불충분한 컨텍스트로 인한 환각이 현실에서 가장 위험한 이유가 바로 여기에 있다.


해결책: Selective Generation — 모를 때는 멈추는 AI

정보를 분석하고 필터링하는 AI 로봇

핵심 아이디어: 답하지 않는 것이 최선일 때가 있다

연구팀이 제안한 해결책의 이름은 Selective Generation이다. 핵심은 간단하다: "환각할 가능성이 높으면, 차라리 답하지 않는다."

이를 위해 두 가지 신호를 결합한다:

Selective Generation 프레임워크
신호 1: 자기 평가 신뢰도
P(True) — 같은 질문에 여러 번 답하게 해서 답변 일관성 측정
P(Correct) — 모델 스스로 자기 답변의 정확도를 추정
신호 2: 컨텍스트 충분도
Autorater가 판별한 충분/불충분 이진 레이블
정답 없이도 판단 가능 — 실전 배포의 핵심 장점
결합: 로지스틱 회귀
두 신호를 결합하여 "이 응답이 환각일 확률"을 예측
임계값(threshold) 설정으로 정확도↔커버리지 트레이드오프 조절

왜 두 신호를 결합해야 하는가?

자기 평가 신뢰도만으로는 부족하다. 모델이 "확신한다"고 해도 불충분한 컨텍스트에서는 환각일 수 있다 — 앞서 본 Gemini 1.5 Pro의 사례처럼.

컨텍스트 충분도만으로도 부족하다. 충분한 컨텍스트가 있어도 모델이 잘못 이해해서 틀릴 수 있다.

두 신호를 로지스틱 회귀로 결합하면, 각 신호가 놓치는 케이스를 서로 보완한다.

결과: 2~10% 정확도 향상

Selective Generation 적용 후 정확도 향상
Gemma 2 27B (HotPotQA)
+10%p 최대 향상
Gemini 1.5 Pro (HotPotQA)
+5%p
GPT-4o (평균)
+3%p
전체 평균
+2~10%p

특히 주목할 점은 Gemma 2 27B(비교적 소형 모델)에서 10 퍼센트포인트 이상의 정확도 향상을 달성했다는 것이다. 이는 소형 모델이 대형 모델보다 컨텍스트 충분도 신호의 혜택을 더 크게 받는다는 의미다.

실전 적용을 위한 세 가지 전략

전략 1 생성 전 충분도 확인: LLM이 답변을 생성하기 전에 Autorater로 컨텍스트 충분도를 체크한다. 불충분하면 "답변할 수 있는 정보가 부족합니다"라고 알린다.
전략 2 추가 검색 또는 재정렬: 불충분한 컨텍스트가 감지되면, 더 많은 문서를 검색하거나 기존 결과를 충분도 기준으로 재정렬(re-rank)한다.
전략 3 거부 임계값 조정: 신뢰도 + 충분도 점수의 임계값을 비즈니스 요구에 맞게 튜닝한다. 의료·법률 분야는 높은 임계값(보수적), 일반 대화는 낮은 임계값(적극적).

Fine-tuning으로 해결할 수 있을까?

"모르겠습니다"를 가르치는 것은 어렵다

연구팀은 Mistral 7B를 대상으로 fine-tuning 실험도 진행했다. 세 가지 학습 데이터 구성을 테스트했다:

학습 데이터구성정답률환각률
Mix 1정답만으로 학습31.4%68.6%
Mix 220% 랜덤 "모르겠다" 포함23.0%75.8%
Mix 320% 불충분 시 "모르겠다" 포함23.0%74.8%
Vanilla RAGfine-tuning 없음 (기준)28.8%59.4%

결과는 실망스러웠다. Fine-tuning을 하면 특정 질문에 대한 정답률은 올라가지만, "모르겠다"라고 거부하는 능력은 오히려 약해졌다. Mix 1은 거부율이 0%로 — 단 한 번도 "모르겠다"고 하지 않았다. Fine-tuning된 모델은 "항상 답변해야 한다"는 패턴을 학습해버리는 경향이 있기 때문이다.

이 실험은 중요한 시사점을 준다: 환각 문제는 모델 학습 단계에서만 해결할 수 없다. 추론(inference) 단계에서의 메커니즘 — Selective Generation 같은 — 이 반드시 필요하다.


왜 이 연구가 이전 RAG 연구와 다른가?

기존 RAG 개선 연구들과의 차이를 명확히 짚어보자.

기존 접근Sufficient Context 접근
검색 품질(관련성) 향상에 집중검색 결과의 충분성 판별에 집중
모델이 더 잘 답하게 하는 것이 목표모델이 모를 때 멈추게 하는 것이 목표
환각 원인을 모델 능력의 문제로 봄환각 원인을 컨텍스트 품질의 문제로 재정의
정답 레이블이 필요한 평가 방식정답 없이 컨텍스트만으로 평가 가능
더 많은 컨텍스트 = 더 좋은 결과 가정더 많은 컨텍스트가 더 많은 환각을 유발할 수 있음을 발견

특히 "정답 없이 평가 가능"이라는 점이 실전에서 결정적이다. 실제 프로덕션 환경에서는 사용자가 어떤 질문을 할지 미리 알 수 없고, 따라서 정답 레이블도 없다. Sufficient Context 접근은 정답을 몰라도 "이 컨텍스트가 답변에 충분한지"를 판별할 수 있기 때문에, 실시간 프로덕션 시스템에 바로 적용할 수 있다.


2026년, 이 연구가 어떻게 활용되고 있는가?

Google Vertex AI RAG Engine에 통합

이 연구의 가장 직접적인 성과는 Google Cloud의 Vertex AI RAG EngineLLM Re-Ranker로 통합된 것이다. 기존에는 검색 결과를 의미적 유사도(semantic similarity)만으로 정렬했다면, 이제는 "이 문서가 질문에 답하기에 충분한 정보를 포함하고 있는가"를 기준으로 재정렬한다.

실제 적용 효과:

  • 검색 메트릭(nDCG) 향상
  • RAG 시스템 전체 정확도 향상
  • 환각률 감소

산업 전반의 트렌드

2026년 현재, Sufficient Context 개념은 더 넓은 맥락에서 RAG 품질 관리의 핵심 요소로 자리잡고 있다:

2026년 RAG 품질 관리 파이프라인
1. 검색 (Retrieval)
관련 문서를 빠르게 찾기
Dense + Sparse 하이브리드 검색
2. 충분도 검증 (Sufficiency Check)
검색된 문서가 질문에 답하기에 충분한지 판별
이 논문의 핵심 기여
3. 적응적 생성 (Adaptive Generation)
충분 → 답변 생성
불충분 → 추가 검색 또는 거부
Selective Generation

앞으로의 방향

연구팀은 논문의 마지막에서 두 가지 후속 연구 방향을 제시한다:

  1. 검색 방법이 컨텍스트 충분도에 미치는 영향 분석 — 어떤 검색 알고리즘이 "충분한" 컨텍스트를 더 잘 가져오는가?
  2. 검색 품질 신호를 모델 후학습에 활용 — Sufficient Context 정보를 RLHF나 DPO 같은 학습 과정에 통합하여, 모델 자체가 "불충분한 컨텍스트를 인식하는 능력"을 내재화하도록

핵심 정리: 기억해야 할 5가지

1 "관련성"과 "충분성"은 다르다. 검색된 문서가 질문과 관련 있다고 해서, 그 문서로 질문에 답할 수 있는 것은 아니다.
2 불충분한 컨텍스트는 RAG를 더 위험하게 만든다. 컨텍스트가 없을 때보다 불충분한 컨텍스트가 있을 때 환각이 최대 6.5배 증가한다.
3 가장 강력한 모델이 가장 위험할 수 있다. Gemini 1.5 Pro는 충분한 컨텍스트에서 최고 성능을 보이지만, 불충분할 때 환각률도 최고(40.4%)다.
4 충분도는 자동 판별 가능하다. Gemini 1.5 Pro를 활용한 Autorater가 93% 이상의 정확도로 인간 판단과 일치한다.
5 Selective Generation이 현실적인 해법이다. 충분도 신호 + 자기 평가 신뢰도를 결합하여 2~10%p 정확도 향상을 달성할 수 있다.

마치며: AI에게 "모르겠다"를 가르치는 것의 가치

이 연구의 가장 깊은 통찰은 기술적인 것이 아니다. 그것은 "아는 것과 모르는 것의 경계를 인식하는 능력"이 지능의 핵심이라는 철학적 명제다.

소크라테스는 "나는 내가 모른다는 것을 안다"라고 말했다. 2500년이 지난 지금, 우리는 AI에게 같은 능력을 가르치려 하고 있다. Google Research 팀의 연구는 그 여정에서 중요한 이정표를 세웠다.

RAG 시스템을 구축하거나 운영하고 있다면, "검색 품질"만큼이나 "검색된 컨텍스트의 충분성"에 주목해야 한다. 더 많은 문서를 넣는 것이 아니라, 정말 답을 도출할 수 있는 문서인지를 확인하는 것 — 이것이 2026년 RAG 시스템의 핵심 경쟁력이 될 것이다.


논문 정보:

  • 제목: Sufficient Context: A New Lens on Retrieval Augmented Generation Systems
  • 저자: Hailey Joren, Jianyi Zhang, Chun-Sung Ferng, Da-Cheng Juan, Ankur Taly, Cyrus Rashtchian
  • 발표: ICLR 2025
  • 링크: arXiv:2411.06037 | GitHub

함께 읽으면 좋은 글: