EventRAGRAGKnowledge Graph이벤트 추출다중 홉 추론ACL 2025LLM

EventRAG 완전 해부 — AI가 '사건의 흐름'을 이해하는 법 (ACL 2025)

전통 RAG는 왜 뉴스, 역사, 법률 문서를 제대로 이해하지 못하는가? ACL 2025에서 발표된 EventRAG는 이벤트 지식 그래프(EKG)로 이 문제를 해결한다. 사건의 시간 순서, 인과 관계, 다중 문서 추론까지 — '사건 중심' RAG의 모든 것.

코어닷투데이2026-04-0330분

들어가며: AI는 왜 이야기를 못 따라갈까

2024년 미국 대선을 다루는 뉴스 기사 세 개가 있다고 하자:

문서 1: "슈퍼 화요일(3월 5일)에서 트럼프와 바이든이 각각 압승했다"
문서 2: "6월 27일 첫 번째 토론이 열렸다"
문서 3: "7월 21일, 바이든 대통령이 대선 레이스에서 철수를 선언했다"

이제 AI에게 질문한다: "2024년 대선의 두 주요 후보는 누구였는가?"

사람이라면 쉽다. 슈퍼 화요일에 트럼프와 바이든이 승리했고, 이후 바이든이 철수했으니 해리스가 후보가 되었다 — 시간 순서와 인과 관계를 따라가면 답이 나온다.

하지만 전통적인 RAG 시스템은 이것을 못한다.

단서는 있지만 연결이 없는 상태

왜? 전통 RAG는 문서를 잘게 쪼갠 텍스트 조각(청크)을 검색하기 때문이다. 각 청크는 독립적인 텍스트 덩어리일 뿐, 사건들이 어떤 순서로 일어났고, 왜 연결되는지를 알지 못한다. "바이든이 철수했다"는 정보와 "해리스가 후보가 되었다"는 정보 사이의 인과 관계를 연결할 구조가 없는 것이다.

2025년 7월, 저장대학교(Zhejiang University)와 UCL, Ant Group의 연구진이 ACL 2025에서 이 문제를 정면 돌파하는 논문을 발표했다:

EventRAG: Enhancing LLM Generation with Event Knowledge Graphs

핵심 아이디어는 명쾌하다 — 텍스트를 문장 단위가 아니라 '사건(Event)' 단위로 구조화하고, 사건들의 시간 순서와 인과 관계를 그래프로 연결하라. 이 글에서는 왜 이런 접근이 필요했는지, 어떻게 작동하는지, 그리고 2026년 현재의 RAG 생태계에서 어떤 의미를 갖는지를 완전 해부한다.

제1장: 전통 RAG의 세 가지 한계

EventRAG를 이해하려면, 먼저 전통 RAG가 어디서 실패하는지 알아야 한다. 논문은 세 가지 구조적 한계를 지적한다.

한계 1: 사건 중심 과제(Event-Centric Challenges)

전통 RAG는 문서를 평면적 문장(flat sentences)으로 취급한다. 사건이 어떻게 진화하고, 다른 사건과 어떻게 연결되는지를 추적하지 않는다.

🚨

구체적 실패 사례

질문: "슈퍼 화요일 이후 대선 판도가 어떻게 바뀌었나?"

전통 RAG: 슈퍼 화요일 결과 청크 하나, 토론 청크 하나, 철수 청크 하나를 각각 찾지만 — 이 사건들이 어떤 순서로 연결되는지 모른다. "바이든 철수 → 해리스 승계"라는 핵심 인과 관계를 놓친다.

한계 2: 시간 인식 부재(Temporal-Aware Limitations)

관련 텍스트 조각을 찾았다 해도, 전통 RAG는 시간의 흐름(temporal dynamics)을 포착하지 못한다 — 사건의 순서, 지속 시간, 시점 간의 간격.

예를 들어: "대통령이 3% 성장을 발표했다" — 이것이 2023년 Q2인지 2024년 Q3인지에 따라 의미가 완전히 달라진다. 시간 맥락 없이는 정확한 답변이 불가능하다.

한계 3: 다중 이벤트 추론 불가(Multi-Event Reasoning)

대부분의 RAG 시스템은 한 번의 검색(single-pass retrieval)에 의존한다. 하지만 복잡한 질문은 여러 사건을 체인처럼 연결하는 다단계 추론이 필요하다.

💭 다중 이벤트 추론이 필요한 질문 예시

"전시 대피에 대한 여론은 여러 차례의 대피 물결을 거치면서 어떻게 변했는가?"

→ 이 질문에 답하려면: 1차 대피 → 정부 대응 → 2차 대피 → 언론 반응 → 3차 대피 → 최종 여론 변화를 시간순으로 추적하면서 각 단계의 인과 관계를 연결해야 한다. 한 번의 검색으로는 절대 불가능하다.

제2장: 사건(Event)이란 무엇인가 — 정보 추출의 역사

1990년대 — MUC: "기사에서 사건을 뽑아라"

EventRAG의 뿌리는 1990년대 MUC(Message Understanding Conference) 대회까지 거슬러 올라간다. 미국 DARPA가 주최한 이 대회에서, 연구자들은 뉴스 기사에서 "누가, 무엇을, 언제, 어디서, 왜 했는가"를 자동으로 추출하는 과제를 풀었다.

2005년 — ACE 프로그램

ACE(Automatic Content Extraction) 프로그램은 이벤트 추출을 체계화했다. 이벤트를 트리거(trigger)와 인자(arguments)로 분리하여 정의했다:

트리거
사건을 나타내는 핵심 단어
예: "공격했다", "선언했다"

인자(Arguments)
참여자, 시간, 장소 등
예: 누가, 언제, 어디서

이벤트
트리거 + 인자의 구조화된 표현
= 하나의 완성된 사건 기록

2024–2025년 — LLM 기반 이벤트 추출

GPT-4, Claude 등 대형 언어 모델의 등장으로, 이벤트 추출은 별도 학습 없이(zero-shot) 가능해졌다. EventRAG가 바로 이 방식을 채택한다 — 사전 학습된 LLM(gpt-4o)이 문서를 읽고 이벤트, 엔티티, 관계를 직접 추출한다.

제3장: EventRAG의 핵심 — 이벤트 지식 그래프(EKG)

전체 아키텍처: 두 단계

EventRAG는 크게 두 단계로 구성된다:

Phase 1
EKG 구축
이벤트 추출 + 병합 + 확장

→

Phase 2
에이전트 추론
검색 + 시간 추론 + 자기 검증

→

최종 답변
사실 기반 생성

아래 인터랙티브 컴포넌트에서 각 단계를 클릭하며 상세 작동 원리를 확인해 보자:

Phase 1: 이벤트 지식 그래프 구축

EKG를 구축하는 AI 로봇

EventRAG의 EKG 구축은 세 단계로 이루어진다:

Step 1: 이벤트 추출 (Event Extraction)

LLM이 문서를 읽고 이벤트, 엔티티, 관계를 추출한다. 추출된 정보는 두 갈래로 처리된다:

벡터 데이터베이스(Milvus) — 밀집 벡터 표현으로 변환하여 유사도 기반 검색용
구조화된 그래프 — 유사도 기반 병합과 지식 확장을 거쳐 최종 EKG로 통합

Step 2: 엔티티 병합 (Entity Fusion)

다중 문서에서 같은 엔티티가 다르게 표현되는 문제를 해결한다. 핵심은 코사인 유사도 기반 매칭이다:

$\mathcal{V}_i \cup \mathcal{V}_j \to \mathcal{V}_f, \quad \text{if } \text{similarity}(\mathcal{V}_i, \mathcal{V}_j) > \theta$

유사도가 임계값 θ를 넘으면 두 엔티티를 하나로 병합한다. 단, 직접 정보를 합치는 대신 "유사(similar)" 관계를 설정하여 원본 정보를 보존한다.

🔗

엔티티 병합의 실제 효과

문서1: "바이든 대통령이 철수를 선언했다"
문서2: "Joe Biden이 대선에서 물러났다"
문서3: "현 대통령이 불출마 결정을 내렸다"

→ "바이든 대통령", "Joe Biden", "현 대통령" 모두 하나의 노드로 병합. 이후 이 노드에 연결된 모든 이벤트가 자동으로 연결됨.

Step 3: 지식 확장 (Knowledge Expansion)

그래프의 빈틈을 채운다. 같은 참여자를 공유하거나 비슷한 시간대에 발생한 이벤트를 연결하고, LLM의 내재 지식으로 문맥을 보강한다.

핵심 통찰: 지식 확장은 "분석적 사고의 선행 적용(front-loading of cognitive processes)"이다. 나중에 추론할 때 계산을 줄이기 위해, 그래프 구축 시점에 미리 분석을 수행하는 것이다.

Phase 2: 에이전트 기반 추론

EKG가 구축되면, 지능형 에이전트가 이를 활용하여 검색과 추론을 수행한다.

시간의 강을 따라 이벤트가 흐르는 모습

자율 EKG 쿼리 (Autonomous EKG Querying)

에이전트는 사용자 질문을 이벤트 요소(참여자, 논리 관계, 시간 마커)로 분해하고, EKG에서 가장 관련 높은 이벤트를 찾는다:

$\mathbf{e}_j = \arg\max_{\mathbf{e}_k \in \mathcal{E}} \text{similarity}(\mathbf{q}, \mathbf{e}_k)$

핵심은 한 번에 끝나지 않는다는 것이다. 에이전트는 발견한 이벤트에서 연결된 다른 이벤트로 반복적으로 탐색을 확장한다.

시간 인식 추론 (Temporal-Aware Inference)

이벤트 간의 시간적 선후 관계를 명시적으로 모델링한다:

$T(e_j) \preceq T(e_k), \quad \text{if event } e_j \text{ precedes event } e_k$

이를 통해 "바이든 철수 이후에 해리스가 후보가 되었다"는 시간적 인과 관계를 추론할 수 있다.

반성과 자기 수정 (Reflection & Self-Correction)

에이전트는 추론 중 주기적으로 자신의 결론을 검증한다. 모순이나 불일치가 감지되면:

관련 이벤트 노드를 다시 방문
시간 관계를 재검토
EKG의 추가 부분을 탐색
수정된 추론으로 업데이트

이 자기 수정 루프는 환각(hallucination)을 줄이는 핵심 메커니즘이다.

제4장: 실험 결과 — 숫자가 증명하는 효과

실험 1: 생성 효과성 (UltraDomain)

4가지 도메인(농업, 바이오프로토콜, 요리, 역사)에서 NaiveRAG, GraphRAG, LightRAG와 비교했다. 6가지 평가 지표를 사용했으며, LLM(gpt-4o)이 쌍대 비교(pairwise evaluation)로 승자를 판정한다.

EventRAG 승률 (Overall Winner, 4개 도메인 평균)

EventRAG

~85%

LightRAG

~30%

GraphRAG

~20%

NaiveRAG

~12%

EventRAG는 특히 Comprehensiveness(포괄성)과 Logic(논리성)에서 압도적 우위를 보였다 — EKG가 사건 간 관계를 구조적으로 포착하기 때문이다.

실험 2: 추론 능력 (MultiHopRAG)

다중 홉 추론이 필요한 4가지 쿼리 유형에서 테스트했다:

쿼리 유형	NaiveRAG	GraphRAG	LightRAG	EventRAG
추론 쿼리	0.295	0.758	0.817	0.841
비교 쿼리	0.192	0.436	0.559	0.816
Null 쿼리	0.289	0.243	0.292	0.327
시간 쿼리	0.186	0.455	0.617	0.879
평균	0.241	0.473	0.571	0.716

핵심 발견:

비교 쿼리(Comparison Query)에서 EventRAG가 LightRAG 대비 +25.7%p 향상 — 이벤트 속성 비교에 EKG의 구조화된 표현이 결정적
시간 쿼리(Temporal Query)에서 +26.2%p 향상 — 시간 인식 추론의 위력
Null 쿼리에서도 우수 — 자기 수정 메커니즘 덕분에 "답이 없는 질문"에 대해 과신하지 않음
전체 평균 Answer Correctness 0.716 — 가장 강력한 기존 방법(LightRAG, 0.571) 대비 +14%p 절대 향상

실험 3: 절삭 분석 (Ablation Study)

🔬

각 구성 요소의 기여도

지식 확장(Expand Knowledge) 제거 시: Comprehensiveness와 Diversity 급감 — 이벤트 세부사항과 엔티티 연결에 핵심적 역할

다중 이벤트 추론(Multi-event Reasoning) 제거 시: Logic과 Overall Winner 급감 — 복잡한 논리적 관계 이해와 일관된 답변 생성에 필수

둘 다 제거해도 NaiveRAG보다 우수 — 이벤트 중심 표현 자체가 가진 내재적 이점 증명

제5장: 사례 연구 — EventRAG vs GraphRAG

논문의 Figure 3은 구체적 비교를 보여준다. 질문은:

"전시 대피에 대한 여론은 여러 차례의 대피 물결을 거치면서 어떻게 변했는가?"

EventRAG의 답변	GraphRAG의 답변
체계적 시간순 구조: "1차 대피(1939년 9월)에서는 정부와 대중의 강한 협조가 있었다... 이후 열정이 식으면서 참여율이 하락... 언론(The Times 등)이 도전과 성공을 보도하며 여론에 영향... 최종적으로 초기 열성에서 환멸, 그리고 회복과 감사로 여론이 진화"	주제별 나열: "정부 노력... 개인적 감정적 영향... 커뮤니티 지원 시스템... 결론: 여론이 변했다"
✅ 구체적 날짜, 통계 포함	❌ 일반적 서술, 구체성 부족
✅ 시간에 따른 여론 변화의 인과 관계 추적	❌ 주제별 정리만, 변화의 흐름 부재
✅ 1차 출처(언론, 정부 발표) 인용	❌ 2차적 요약만 제공

LLM 평가 결과: "Answer 1(EventRAG)이 승자. 다양한 관점의 포괄성, 여론 변화의 논리적·상세한 서술, 2차 세계대전 대피 과정에 대한 깊은 이해를 보여준다."

제6장: EventRAG는 기존 방법들과 무엇이 다른가

RAG 진화의 지형도

2020
NaiveRAG
청크 기반 검색

→

2023
Self-RAG
자기 성찰 검색

→

2024
GraphRAG
지식 그래프 + RAG

→

2025
EventRAG
이벤트 그래프 + 시간 추론

다중 문서를 넘나드는 이벤트 릴레이

GraphRAG vs EventRAG: 핵심 차이

차원	GraphRAG	EventRAG
노드 단위	엔티티 (사람, 장소, 조직)	이벤트 (사건) + 엔티티
엣지 의미	정적 관계 ("소속", "위치")	동적 관계 (원인→결과, 시간 순서)
시간 모델링	명시적 지원 없음	시간 마커를 노드 속성 + 엣지로 모델링
검색 방식	커뮤니티 요약 기반	이벤트 벡터 유사도 + 반복 탐색
추론	단일 패스	다중 홉 반복 추론 + 자기 수정
최적 도메인	글로벌 질의 ("전체 트렌드는?")	서사 중심 ("사건이 어떻게 전개되었나?")

GraphRAG는 엔티티 간의 정적 관계를 잘 포착한다 ("A 회사는 B 도시에 있다"). 하지만 EventRAG는 동적 변화를 추적한다 ("A 회사가 먼저 X를 했고, 그 결과로 Y가 발생했다"). 뉴스, 역사, 법률, 의학 같은 서사 중심(narrative-rich) 도메인에서 EventRAG가 강력한 이유다.

제7장: 한계와 미래 방향

현재 한계

논문은 솔직하게 한계를 밝힌다:

⚠️

EventRAG의 주요 한계

① 계산 비용: EKG 구축에 문서당 여러 번의 LLM 호출이 필요 (이벤트 추출, 관계 식별, 엔티티 병합, 지식 확장). 대규모 문서 컬렉션에서는 느리다.

② 실시간 부적합: 그래프 구축의 다단계 처리로 실시간 애플리케이션에는 적합하지 않다.

③ 윤리적 고려: 진행 중인 뉴스나 사회 운동에 적용할 때, 이벤트 타임라인과 인과 관계 추론이 성급하거나 단순화된 결론으로 이어질 위험이 있다.

2026년 전망: EventRAG가 가리키는 방향

EventRAG는 단일 시스템이라기보다, RAG의 진화 방향을 보여주는 지표다:

구조화된 검색이 대세 — 평면 텍스트 청크 → 지식 그래프 → 이벤트 그래프로 진화. "더 풍부한 구조 = 더 정확한 검색"
에이전트 기반 추론 — 단일 검색에서 반복적 탐색으로. 에이전트가 검색 전략을 자율적으로 수립하고 수정
시간 인식은 필수 — 뉴스, 법률, 금융, 의학 등 현실 세계의 대부분의 문서는 시간축을 가진다. 시간을 무시하는 RAG는 한계가 있다
자기 수정 루프 — 환각 감소의 핵심. 생성 전에 추론을 검증하는 메커니즘이 표준이 될 것

마치며: 사건의 흐름을 아는 AI

EventRAG의 가장 큰 공헌은 관점의 전환이다.

전통 RAG는 텍스트를 정보의 저장소로 봤다 — "이 문장에 답이 있나?" 하지만 현실 세계의 지식은 사건의 흐름이다 — "무슨 일이 먼저 일어났고, 그래서 무슨 일이 다음에 발생했는가?"

사람이 뉴스를 이해하는 방식을 생각해 보자. 우리는 개별 문장을 기억하는 것이 아니라, 사건의 순서와 인과 관계를 머릿속에서 연결한다. "바이든이 토론에서 부진했다 → 여론이 악화되었다 → 결국 철수했다 → 해리스가 후보가 되었다." 이것이 바로 EventRAG가 AI에게 부여하려는 능력이다.

ACL 2025에서 발표된 이 연구는, RAG가 단순한 "검색 + 생성" 파이프라인에서 "이해 + 추론 + 생성" 시스템으로 진화하고 있음을 보여준다. 사건의 흐름을 아는 AI — 그것이 더 정확하고, 더 일관되고, 더 신뢰할 수 있는 AI의 조건이다.

📄 논문: Yang et al., "EventRAG: Enhancing LLM Generation with Event Knowledge Graphs", ACL 2025 (pp. 16967–16979)

🏫 소속: Zhejiang University, University College London, Ant Group

📚 관련 연구:

Lewis et al., "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (NeurIPS 2020)

Edge et al., "From Local to Global: A Graph RAG Approach" (2024)

Guo et al., "LightRAG: Simple and Fast Retrieval-Augmented Generation" (2024)

Tang & Yang, "MultiHop-RAG: Benchmarking RAG for Multi-hop Queries" (2024)

기술2026.04.13