GraphRAGRAG지식 그래프LLM검색 증강 생성ICLR 2026

GraphRAG는 언제 써야 할까? — 그래프가 RAG를 이기는 순간과 지는 순간

GraphRAG가 만능이 아니라면, 정확히 언제 써야 할까? ICLR 2026 논문이 7개 GraphRAG 시스템을 벤치마킹하여 밝혀낸 '그래프가 빛나는 순간'과 '오히려 해가 되는 순간'을 깊이 있게 분석합니다.

코어닷투데이2026-02-0346분

프롤로그: "회사가 실패한 이유를 설명해줘"

당신이 AI 분석 시스템에 이렇게 물었다고 하자:

"Kjaer Weis가 특정 시장에서 실패한 이유를 분석해줘."

일반 RAG 시스템은 이렇게 동작한다:

"Kjaer Weis"와 "실패"가 포함된 문서 청크를 검색
유사도 높은 상위 5개 청크를 LLM에 전달
LLM이 해당 청크들만 보고 답변 생성

결과? "해당 정보를 찾을 수 없습니다" 또는 단편적인 사실 나열.

왜? 이 질문의 답은 하나의 문서에 없기 때문이다. 시장 진입 시점, 공급망 문제, 규제 변화, 브랜드 인지도 하락 — 이 정보들은 서로 다른 문서에 흩어져 있고, 이들 사이의 인과관계를 연결해야만 답할 수 있다.

GraphRAG는 다르다:

문서들에서 엔티티(기업, 시장, 규제 등)와 관계를 추출해 지식 그래프 구축
"시장 진입 시점 → 공급망 차질 → 규제 벌금 → 브랜드 훼손"이라는 인과 경로를 그래프에서 탐색
연결된 맥락을 종합하여 구조화된 분석 제공

하지만 여기서 중요한 질문이 생긴다: GraphRAG가 항상 더 나을까?

놀랍게도, 답은 "아니오"다.

GraphRAG 지식 그래프 시각화

이 글에서는 ICLR 2026에 발표된 논문 "When to use Graphs in RAG"를 중심으로, GraphRAG가 빛나는 순간과 오히려 해가 되는 순간을 체계적으로 분석한다.

제1장: RAG의 한계 — 왜 그래프가 필요했나

RAG란 무엇인가

RAG(Retrieval-Augmented Generation)는 2020년 Lewis et al.이 제안한 이후, LLM의 환각 문제를 해결하는 핵심 기술로 자리잡았다. 기본 원리는 단순하다:

사용자 질문

↓

문서 검색 (유사도 기반)

↓

RAG의 구조적 한계

하지만 현실의 질문은 대부분 이렇지 않다:

RAG가 실패하는 질문 유형

멀티홉 추론

"Hinze의 Felicia와의 합의가 영국 통치자들에 대한 인식에 어떤 영향을 미쳤는가?" — 여러 문서에 흩어진 사실들을 논리적으로 연결해야 한다

맥락적 요약

"이 지역을 탐험하는 방문객들에게 John Curgenwen은 어떤 역할을 하는가?" — 흩어진 정보를 종합해 하나의 맥락으로 구성해야 한다

창의적 생성

"King Arthur와 Cornish 해안선에 대한 John Curgenwen의 비교를 신문 기사로 재구성하라" — 검색된 내용을 넘어 추론과 창작이 필요하다

이런 질문들의 공통점은 정보들 사이의 관계(relationship)가 핵심이라는 것이다. 그런데 전통 RAG는 문서를 독립적인 청크로 쪼개어 관계를 파괴한다.

GraphRAG의 등장

RAG vs GraphRAG 비교

GraphRAG는 이 한계를 극복하기 위해 등장했다. 핵심 아이디어:

RAG vs GraphRAG 핵심 차이

일반 RAG 텍스트 → 청크 분할 → 임베딩 → 유사도 검색. 개별 사실에 빠르게 접근하지만 관계를 놓친다

GraphRAG 텍스트 → 엔티티·관계 추출 → 지식 그래프 구축 → 그래프 탐색. 관계와 맥락을 보존하지만 비용이 높다

Microsoft가 2024년에 발표한 MS-GraphRAG를 시작으로, HippoRAG, LightRAG, RAPTOR 등 다양한 GraphRAG 시스템이 쏟아져 나왔다.

그런데 문제가 생겼다.

제2장: GraphRAG의 불편한 진실

"GraphRAG가 오히려 못하다?"

최근 연구들이 충격적인 결과를 보고하기 시작했다:

📉

Han et al. (2025)

GraphRAG가 Natural Question에서 일반 RAG 대비 정확도 13.4% 하락. 실시간 정보가 필요한 질문에서는 16.6% 하락

⏱️

Zhou et al. (2025)

HotpotQA에서 그래프 검색이 멀티홉 추론 성능을 4.5% 개선했지만, 평균 지연시간이 2.3배 증가

이론적으로 완벽해 보이는 GraphRAG가 실제로는 왜 실패할까?

이 논문의 핵심 의문이 바로 이것이다:

GraphRAG는 정말로 효과적인가? 그리고 정확히 어떤 시나리오에서 그래프 구조가 RAG 시스템에 측정 가능한 이점을 제공하는가?

기존 벤치마크의 문제

논문은 기존 벤치마크(HotpotQA, MultiHopRAG, UltraDomain)가 GraphRAG를 제대로 평가하지 못하는 이유를 세 가지로 지적한다:

문제	설명	결과
과제 세분화 부족	단순 사실 검색이나 직선적 멀티홉에만 집중	복잡한 추론·요약·생성 능력 미평가
코퍼스 품질 문제	위키피디아 같은 일반 소스 — 도메인 지식과 관계가 희소	그래프의 계층적 지식 활용 능력 측정 불가
블랙박스 평가	최종 답변만 평가, 그래프 구축·검색 과정은 무시	그래프가 실제로 기여하는지 파악 불가

기존 벤치마크의 질문 분포를 보면 문제가 명확하다:

기존 벤치마크 질문 난이도 분포 (%)

UltraDomain 사실검색

97%

UltraDomain 복잡추론

1.8%

MultiHopRAG 사실검색

52.2%

MultiHopRAG 복잡추론

44.9%

HotpotQA 사실검색

78.2%

HotpotQA 복잡추론

19%

UltraDomain의 97%가 단순 사실 검색! GraphRAG의 진가를 볼 수 없는 구조다.

제3장: GraphRAG-Bench — 공정한 심판의 등장

벤치마크 설계 철학

논문은 이 문제를 해결하기 위해 GraphRAG-Bench를 제안한다. 세 가지 핵심 설계 원칙:

GraphRAG-Bench의 3가지 설계 원칙

① 포괄적 코퍼스 밀도 높은 의료 가이드라인 + 느슨한 구조의 고전 소설. 정보 밀도가 다른 두 가지 코퍼스로 일반화 능력 평가

② 점진적 난이도 사실 검색 → 복잡 추론 → 맥락적 요약 → 창의적 생성. 4단계로 난이도를 높여가며 평가

③ 전 파이프라인 평가 그래프 구축 품질 → 검색 성능 → 생성 정확도. 최종 답변뿐 아니라 각 단계를 독립 평가

4단계 과제 체계

4단계 과제 난이도 일러스트

이것이 GraphRAG-Bench의 핵심 혁신이다. 난이도가 올라갈수록 그래프 구조의 필요성이 커진다:

Level 1

사실 검색 (Fact Retrieval) — 단일 지식 포인트를 찾는 단순 질문. 키워드 매칭이면 충분.
예: "몽생미셸은 프랑스의 어느 지역에 있나?"

Level 2

복잡 추론 (Complex Reasoning) — 여러 문서의 지식을 논리적으로 연결해야 하는 질문.
예: "Hinze의 Felicia와의 합의가 영국 통치자들에 대한 인식에 어떤 영향을 미쳤는가?"

Level 3

맥락적 요약 (Contextual Summarize) — 흩어진 정보를 종합해 논리적이고 맥락 있는 하나의 답으로 구성.
예: "이 지역을 탐험하는 방문객들에게 John Curgenwen은 어떤 역할을 하는가?"

Level 4

창의적 생성 (Creative Generation) — 검색 내용을 넘어 추론과 가설적 시나리오까지 필요.
예: "King Arthur 비유와 Cornish 해안선 탐험을 신문 기사로 재구성하라"

두 가지 코퍼스: 정반대 특성

특성	소설 데이터셋	의료 데이터셋
출처	구텐베르크 프로젝트 (20세기 이전 소설)	NCCN 의료 가이드라인
정보 구조	느슨 — 암시적 관계, 비선형 서사	밀집 — 질병·치료·약물 간 명시적 계층
관계 밀도	낮음 (평균 관계 3.82개/문서)	높음 (평균 관계 73.2개/문서)
선택 이유	비구조화된 실제 문서 시뮬레이션	도메인 전문 지식의 계층적 관계 테스트

전 파이프라인 평가 지표

기존 벤치마크는 최종 답변만 봤다. GraphRAG-Bench는 세 단계를 모두 평가한다:

1. 그래프 품질

노드 수, 엣지 수, 평균 차수, 클러스터링 계수

↓

2. 검색 성능

맥락 관련성 (Context Relevance), 증거 재현율 (Evidence Recall)

↓

3. 생성 정확도

어휘 겹침, 답변 정확도, 사실 충실도, 증거 커버리지

제4장: 7개 GraphRAG 시스템, 링 위에 올리다

참가 선수 소개

논문은 7개의 대표적인 GraphRAG 시스템을 일반 RAG와 비교한다:

시스템	개발	핵심 특징
MS-GraphRAG	Microsoft (2024)	커뮤니티 기반 계층적 검색. 로컬+글로벌 탐색 결합
HippoRAG	Gutierrez et al. (2024)	인간 기억 체계 모방. 개인화된 지식 탐색
HippoRAG2	Gutierrez et al. (2025)	HippoRAG 개선판. 밀도 높은 그래프 구축
LightRAG	Guo et al. (2024)	이중 레벨 검색. 그래프 향상 인덱싱으로 확장성 개선
Fast-GraphRAG	CircleMind-AI (2024)	소프트 프루닝으로 불필요 엔티티 제거. 토폴로지 인식 프롬프트
RAPTOR	Sarthi et al. (2024)	재귀적 요약 기반 트리 구조. 계층적 검색
Lazy-GraphRAG	Darren Edge (2024)	MS-GraphRAG의 경량 변형. 최소 전처리 비용

제5장: 핵심 발견 — 9가지 관찰

직접 비교해보자

아래 시뮬레이터에서 과제 유형별로 RAG와 GraphRAG의 성능을 비교해 보자.

관찰 1: 단순 사실 검색에서는 일반 RAG가 충분하다

Obs.1 — 사실 검색에서 GraphRAG는 이점이 없다

질문 예시

"몽생미셸은 프랑스의 어느 지역에 있나?"

결과

일반 RAG가 GraphRAG와 동등하거나 더 우수. 그래프의 추가 처리가 오히려 불필요한 노이즈를 도입할 수 있다.

소설 데이터셋에서 일반 RAG(rerank 포함)의 사실 검색 정확도는 60.92%로, 대부분의 GraphRAG 시스템(49~57%)을 앞섰다. 증거 재현율에서도 일반 RAG가 83.2%로 HippoRAG2의 70.29%를 크게 앞질렀다.

이유: 단순 사실은 하나의 문서 청크에 대부분 포함되어 있다. 그래프를 거치면 관련 있지만 불필요한 정보까지 끌어오게 된다.

관찰 2: 복잡한 과제에서 GraphRAG가 빛난다

소설 데이터셋 — 과제 유형별 최고 정확도 (%)

사실 검색 (RAG)

60.9%

사실 검색 (GraphRAG)

52.9%

복잡 추론 (RAG)

42.9%

복잡 추론 (GraphRAG)

53.4%

맥락 요약 (RAG)

51.3%

맥락 요약 (GraphRAG)

64.4%

복잡 추론, 맥락적 요약, 창의적 생성 — 관계를 연결해야 하는 과제에서 GraphRAG가 명확히 우수하다. 이 과제들은 여러 개념 사이의 복잡한 관계를 연결해야 하는데, 이것이 바로 그래프 구조의 존재 이유다.

관찰 3: 창의적 생성에서 GraphRAG는 사실 충실도가 높다

📊

사실 충실도 (Faithfulness)

소설 데이터셋에서 RAPTOR가 70.9%로 최고. 일반 RAG는 증거 커버리지(40.0%)가 더 넓지만 사실 충실도는 낮다. GraphRAG는 정확하지만 좁고, RAG는 넓지만 부정확하다.

관찰 4-5: 검색 성능의 역전 현상

여기서 가장 흥미로운 패턴이 나타난다:

지표	사실 검색	복잡 추론	맥락 요약
증거 재현율 우위	RAG (83.2%)	GraphRAG (90.9%)	GraphRAG (82.0%)
맥락 관련성 우위	RAG (64.5%)	GraphRAG (87.8%)	RAG (80.1%)

Level 1에서는 RAG가, Level 2-3에서는 GraphRAG가 검색 성능에서 앞선다. 질문이 복잡해질수록 그래프의 관계 탐색 능력이 빛을 발한다.

관찰 6: 창의적 과제에서의 트레이드오프

창의적 생성(Level 4)에서는 GraphRAG가 증거 재현율(83.1%)에서 우세하지만, RAG가 맥락 관련성(78.8%)에서 우세하다. GraphRAG는 더 많은 관련 정보를 가져오지만, 동시에 불필요한 정보도 함께 가져온다.

관찰 7: 그래프 구조는 시스템마다 크게 다르다

소설 데이터셋 — 시스템별 평균 노드·엣지 수 (10K 토큰당)

HippoRAG2 엣지

2,310

LightRAG 엣지

397

MS-GraphRAG 엣지

273

Fast-GraphRAG 엣지

168

HippoRAG2는 다른 시스템보다 5~13배 더 밀도 높은 그래프를 만든다. 이 밀도가 높은 검색 성능(증거 재현율 1위)으로 이어지지만, 동시에 비용도 높아진다.

관찰 8-9: 토큰 인플레이션 — GraphRAG의 숨겨진 비용

시스템	소설 평균 토큰	의료 평균 토큰	비고
일반 RAG	879	954	기준선
HippoRAG2	1,008	1,020	~1.1x
Fast-GraphRAG	4,204	4,298	~4.8x
LightRAG	100,832	100,310	~115x!
MS-GraphRAG(글로벌)	331,375	332,881	~377x!!

MS-GraphRAG의 글로벌 검색은 일반 RAG의 377배 토큰을 사용! 커뮤니티 요약 메커니즘이 최대 4만 토큰의 프롬프트를 생성한다. 과제 복잡도가 올라갈수록 토큰 사용량도 급증한다 (MS-GraphRAG: 7,800 → 40,000 토큰).

이 결과는 중요한 트레이드오프를 보여준다: GraphRAG는 검색 범위를 넓히지만, 프롬프트 인플레이션으로 인해 노이즈 컨텍스트도 함께 증가한다.

제6장: 그래서, 언제 GraphRAG를 써야 하는가?

의사결정 가이드 일러스트

논문의 9가지 관찰을 종합하면, 명확한 의사결정 프레임워크가 도출된다:

GraphRAG를 써야 하는 경우

✅ GraphRAG가 빛나는 시나리오

멀티홉 추론 여러 문서에 흩어진 사실들을 논리적으로 연결해야 할 때. 인과관계, 시간 순서, 계층적 관계 탐색이 필요한 질문

맥락적 종합 다양한 출처의 정보를 하나의 일관된 맥락으로 종합해야 할 때. 보고서 생성, 주제별 요약, 트렌드 분석 등

도메인 전문 지식 의료, 법률, 금융 등 개념 간 계층적 관계가 중요한 도메인. 질병-증상-치료-약물 같은 지식 체계

사실 충실도 중시 답변의 사실적 정확성이 범위보다 중요할 때. 의료 상담, 법률 자문 등 오류 비용이 높은 상황

일반 RAG를 써야 하는 경우

⚡ 일반 RAG가 더 나은 시나리오

단순 사실 조회 "X는 무엇인가?" 같은 단일 문서에서 답할 수 있는 질문. 그래프 오버헤드가 불필요

실시간 정보 빠르게 변하는 정보를 다룰 때. 그래프 재구축 비용이 이점을 상쇄

비용 민감 환경 토큰 비용을 최소화해야 할 때. GraphRAG는 최대 377배 토큰 증가 가능

넓은 범위 요약 전체적인 개요가 필요할 때. RAG가 더 넓은 증거 커버리지 제공

제7장: GraphRAG 시스템 선택 가이드

모든 GraphRAG가 같지 않다. 어떤 시스템을 선택할지도 중요하다:

시스템	강점	약점	추천 상황
HippoRAG2	최고 검색 성능 (재현율 90.9%)	높은 그래프 밀도 → 비용 증가	정확도가 최우선인 경우
MS-GraphRAG	글로벌+로컬 통합 검색	극심한 토큰 인플레이션 (377x)	대규모 코퍼스의 전체 맥락 파악
LightRAG	이중 레벨 검색으로 확장성 좋음	높은 토큰 비용 (115x)	확장성이 필요한 중간 규모 프로젝트
Fast-GraphRAG	효율적 (4.8x), 노이즈 제거	검색 성능 보통	비용 대비 성능 균형
RAPTOR	최고 사실 충실도 (70.9%)	트리 구조 한계	사실 정확도가 핵심인 경우

제8장: 2026년, GraphRAG의 현재와 미래

의료 지식 그래프의 실전 적용

의료 지식 그래프

논문의 의료 데이터셋 결과는 특히 주목할 만하다. NCCN 의료 가이드라인에서 GraphRAG는 질병-증상-치료-약물 간의 계층적 관계를 활용하여 단순 RAG보다 우수한 성능을 보였다.

2026년 현재, 이 기술은 이미 실전에 투입되고 있다:

GraphRAG 실전 적용 분야 (2026)

🏥 의료 AI 환자 증상 → 잠재 질환 → 검사 항목 → 치료 프로토콜 체인 탐색. 복잡한 의료 추론에 적합

⚖️ 법률 리서치 판례 → 법 조항 → 유사 사건 → 판결 근거 연결. 법적 추론의 다단계 관계 탐색

📊 기업 분석 시장 트렌드 → 경쟁사 → 공급망 → 규제 변화 연결. 다차원적 비즈니스 인텔리전스

🔬 학술 연구 논문 → 방법론 → 결과 → 인용 네트워크 탐색. 연구 트렌드와 지식 갭 파악

해결해야 할 과제

💰

토큰 인플레이션

GraphRAG의 가장 큰 실전 장벽. MS-GraphRAG 글로벌 검색은 1회 쿼리당 33만 토큰. 비용 효율적인 그래프 검색 알고리즘 개발이 시급하다

🔄

그래프 유지보수

코퍼스가 업데이트되면 그래프도 재구축해야 한다. 실시간 정보에 취약한 근본적 한계. 증분 그래프 업데이트 기술 필요

🎯

적응형 GraphRAG

질문 복잡도를 자동 감지하여 단순 질문은 RAG, 복잡한 질문은 GraphRAG로 라우팅하는 하이브리드 시스템. 이 논문의 발견이 그 설계 기준을 제공한다

에필로그: 도구는 목적에 맞게 써야 한다

이 논문이 주는 가장 중요한 교훈은 단순하다:

GraphRAG는 만능이 아니다. 하지만 제대로 된 상황에서 쓰면 강력하다.

"그래프를 써야 할까?"라는 질문에 대한 답은 항상 "무엇을 하려고 하는가?"에서 시작해야 한다:

GraphRAG 의사결정 체크리스트

✅ 이럴 때 GraphRAG

여러 문서의 정보를 연결해야 하는가? → Yes
개념 간 계층적 관계가 중요한가? → Yes
사실 충실도가 넓은 커버리지보다 중요한가? → Yes
전처리 비용과 토큰 비용을 감당할 수 있는가? → Yes

⚡ 이럴 때 일반 RAG

단일 문서에서 답을 찾을 수 있는가? → Yes
실시간 정보가 중요한가? → Yes
비용 효율이 최우선인가? → Yes
넓은 범위의 정보 수집이 필요한가? → Yes

망치를 들고 있으면 모든 것이 못으로 보인다. GraphRAG라는 강력한 도구를 손에 쥐었다고 모든 문제에 쓸 필요는 없다. 이 논문은 그 도구가 진정으로 빛나는 순간이 언제인지를 처음으로 체계적으로 보여주었다.

📄 원문 논문: Zhishang Xiang et al. "When to use Graphs in RAG: A Comprehensive Analysis for Graph Retrieval-Augmented Generation." Published as a conference paper at ICLR 2026.

🔗 코드 & 데이터: https://github.com/GraphRAG-Bench/GraphRAG-Benchmark

기술2026.04.08