
EventRAG 완전 해부 — AI가 '사건의 흐름'을 이해하는 법 (ACL 2025)
전통 RAG는 왜 뉴스, 역사, 법률 문서를 제대로 이해하지 못하는가? ACL 2025에서 발표된 EventRAG는 이벤트 지식 그래프(EKG)로 이 문제를 해결한다. 사건의 시간 순서, 인과 관계, 다중 문서 추론까지 — '사건 중심' RAG의 모든 것.

전통 RAG는 왜 뉴스, 역사, 법률 문서를 제대로 이해하지 못하는가? ACL 2025에서 발표된 EventRAG는 이벤트 지식 그래프(EKG)로 이 문제를 해결한다. 사건의 시간 순서, 인과 관계, 다중 문서 추론까지 — '사건 중심' RAG의 모든 것.
2024년 미국 대선을 다루는 뉴스 기사 세 개가 있다고 하자:
이제 AI에게 질문한다: "2024년 대선의 두 주요 후보는 누구였는가?"
사람이라면 쉽다. 슈퍼 화요일에 트럼프와 바이든이 승리했고, 이후 바이든이 철수했으니 해리스가 후보가 되었다 — 시간 순서와 인과 관계를 따라가면 답이 나온다.
하지만 전통적인 RAG 시스템은 이것을 못한다.

왜? 전통 RAG는 문서를 잘게 쪼갠 텍스트 조각(청크)을 검색하기 때문이다. 각 청크는 독립적인 텍스트 덩어리일 뿐, 사건들이 어떤 순서로 일어났고, 왜 연결되는지를 알지 못한다. "바이든이 철수했다"는 정보와 "해리스가 후보가 되었다"는 정보 사이의 인과 관계를 연결할 구조가 없는 것이다.
2025년 7월, 저장대학교(Zhejiang University)와 UCL, Ant Group의 연구진이 ACL 2025에서 이 문제를 정면 돌파하는 논문을 발표했다:
EventRAG: Enhancing LLM Generation with Event Knowledge Graphs
핵심 아이디어는 명쾌하다 — 텍스트를 문장 단위가 아니라 '사건(Event)' 단위로 구조화하고, 사건들의 시간 순서와 인과 관계를 그래프로 연결하라. 이 글에서는 왜 이런 접근이 필요했는지, 어떻게 작동하는지, 그리고 2026년 현재의 RAG 생태계에서 어떤 의미를 갖는지를 완전 해부한다.
EventRAG를 이해하려면, 먼저 전통 RAG가 어디서 실패하는지 알아야 한다. 논문은 세 가지 구조적 한계를 지적한다.
전통 RAG는 문서를 평면적 문장(flat sentences)으로 취급한다. 사건이 어떻게 진화하고, 다른 사건과 어떻게 연결되는지를 추적하지 않는다.
관련 텍스트 조각을 찾았다 해도, 전통 RAG는 시간의 흐름(temporal dynamics)을 포착하지 못한다 — 사건의 순서, 지속 시간, 시점 간의 간격.
예를 들어: "대통령이 3% 성장을 발표했다" — 이것이 2023년 Q2인지 2024년 Q3인지에 따라 의미가 완전히 달라진다. 시간 맥락 없이는 정확한 답변이 불가능하다.
대부분의 RAG 시스템은 한 번의 검색(single-pass retrieval)에 의존한다. 하지만 복잡한 질문은 여러 사건을 체인처럼 연결하는 다단계 추론이 필요하다.
EventRAG의 뿌리는 1990년대 MUC(Message Understanding Conference) 대회까지 거슬러 올라간다. 미국 DARPA가 주최한 이 대회에서, 연구자들은 뉴스 기사에서 "누가, 무엇을, 언제, 어디서, 왜 했는가"를 자동으로 추출하는 과제를 풀었다.
ACE(Automatic Content Extraction) 프로그램은 이벤트 추출을 체계화했다. 이벤트를 트리거(trigger)와 인자(arguments)로 분리하여 정의했다:
GPT-4, Claude 등 대형 언어 모델의 등장으로, 이벤트 추출은 별도 학습 없이(zero-shot) 가능해졌다. EventRAG가 바로 이 방식을 채택한다 — 사전 학습된 LLM(gpt-4o)이 문서를 읽고 이벤트, 엔티티, 관계를 직접 추출한다.
EventRAG는 크게 두 단계로 구성된다:
아래 인터랙티브 컴포넌트에서 각 단계를 클릭하며 상세 작동 원리를 확인해 보자:

EventRAG의 EKG 구축은 세 단계로 이루어진다:
LLM이 문서를 읽고 이벤트, 엔티티, 관계를 추출한다. 추출된 정보는 두 갈래로 처리된다:
다중 문서에서 같은 엔티티가 다르게 표현되는 문제를 해결한다. 핵심은 코사인 유사도 기반 매칭이다:
유사도가 임계값 θ를 넘으면 두 엔티티를 하나로 병합한다. 단, 직접 정보를 합치는 대신 "유사(similar)" 관계를 설정하여 원본 정보를 보존한다.
그래프의 빈틈을 채운다. 같은 참여자를 공유하거나 비슷한 시간대에 발생한 이벤트를 연결하고, LLM의 내재 지식으로 문맥을 보강한다.
핵심 통찰: 지식 확장은 "분석적 사고의 선행 적용(front-loading of cognitive processes)"이다. 나중에 추론할 때 계산을 줄이기 위해, 그래프 구축 시점에 미리 분석을 수행하는 것이다.
EKG가 구축되면, 지능형 에이전트가 이를 활용하여 검색과 추론을 수행한다.

에이전트는 사용자 질문을 이벤트 요소(참여자, 논리 관계, 시간 마커)로 분해하고, EKG에서 가장 관련 높은 이벤트를 찾는다:
핵심은 한 번에 끝나지 않는다는 것이다. 에이전트는 발견한 이벤트에서 연결된 다른 이벤트로 반복적으로 탐색을 확장한다.
이벤트 간의 시간적 선후 관계를 명시적으로 모델링한다:
이를 통해 "바이든 철수 이후에 해리스가 후보가 되었다"는 시간적 인과 관계를 추론할 수 있다.
에이전트는 추론 중 주기적으로 자신의 결론을 검증한다. 모순이나 불일치가 감지되면:
이 자기 수정 루프는 환각(hallucination)을 줄이는 핵심 메커니즘이다.
4가지 도메인(농업, 바이오프로토콜, 요리, 역사)에서 NaiveRAG, GraphRAG, LightRAG와 비교했다. 6가지 평가 지표를 사용했으며, LLM(gpt-4o)이 쌍대 비교(pairwise evaluation)로 승자를 판정한다.
EventRAG는 특히 Comprehensiveness(포괄성)과 Logic(논리성)에서 압도적 우위를 보였다 — EKG가 사건 간 관계를 구조적으로 포착하기 때문이다.
다중 홉 추론이 필요한 4가지 쿼리 유형에서 테스트했다:
| 쿼리 유형 | NaiveRAG | GraphRAG | LightRAG | EventRAG |
|---|---|---|---|---|
| 추론 쿼리 | 0.295 | 0.758 | 0.817 | 0.841 |
| 비교 쿼리 | 0.192 | 0.436 | 0.559 | 0.816 |
| Null 쿼리 | 0.289 | 0.243 | 0.292 | 0.327 |
| 시간 쿼리 | 0.186 | 0.455 | 0.617 | 0.879 |
| 평균 | 0.241 | 0.473 | 0.571 | 0.716 |
핵심 발견:
논문의 Figure 3은 구체적 비교를 보여준다. 질문은:
"전시 대피에 대한 여론은 여러 차례의 대피 물결을 거치면서 어떻게 변했는가?"
| EventRAG의 답변 | GraphRAG의 답변 |
|---|---|
| 체계적 시간순 구조: "1차 대피(1939년 9월)에서는 정부와 대중의 강한 협조가 있었다... 이후 열정이 식으면서 참여율이 하락... 언론(The Times 등)이 도전과 성공을 보도하며 여론에 영향... 최종적으로 초기 열성에서 환멸, 그리고 회복과 감사로 여론이 진화" | 주제별 나열: "정부 노력... 개인적 감정적 영향... 커뮤니티 지원 시스템... 결론: 여론이 변했다" |
| ✅ 구체적 날짜, 통계 포함 | ❌ 일반적 서술, 구체성 부족 |
| ✅ 시간에 따른 여론 변화의 인과 관계 추적 | ❌ 주제별 정리만, 변화의 흐름 부재 |
| ✅ 1차 출처(언론, 정부 발표) 인용 | ❌ 2차적 요약만 제공 |
LLM 평가 결과: "Answer 1(EventRAG)이 승자. 다양한 관점의 포괄성, 여론 변화의 논리적·상세한 서술, 2차 세계대전 대피 과정에 대한 깊은 이해를 보여준다."

| 차원 | GraphRAG | EventRAG |
|---|---|---|
| 노드 단위 | 엔티티 (사람, 장소, 조직) | 이벤트 (사건) + 엔티티 |
| 엣지 의미 | 정적 관계 ("소속", "위치") | 동적 관계 (원인→결과, 시간 순서) |
| 시간 모델링 | 명시적 지원 없음 | 시간 마커를 노드 속성 + 엣지로 모델링 |
| 검색 방식 | 커뮤니티 요약 기반 | 이벤트 벡터 유사도 + 반복 탐색 |
| 추론 | 단일 패스 | 다중 홉 반복 추론 + 자기 수정 |
| 최적 도메인 | 글로벌 질의 ("전체 트렌드는?") | 서사 중심 ("사건이 어떻게 전개되었나?") |
GraphRAG는 엔티티 간의 정적 관계를 잘 포착한다 ("A 회사는 B 도시에 있다"). 하지만 EventRAG는 동적 변화를 추적한다 ("A 회사가 먼저 X를 했고, 그 결과로 Y가 발생했다"). 뉴스, 역사, 법률, 의학 같은 서사 중심(narrative-rich) 도메인에서 EventRAG가 강력한 이유다.
논문은 솔직하게 한계를 밝힌다:
EventRAG는 단일 시스템이라기보다, RAG의 진화 방향을 보여주는 지표다:
EventRAG의 가장 큰 공헌은 관점의 전환이다.
전통 RAG는 텍스트를 정보의 저장소로 봤다 — "이 문장에 답이 있나?" 하지만 현실 세계의 지식은 사건의 흐름이다 — "무슨 일이 먼저 일어났고, 그래서 무슨 일이 다음에 발생했는가?"
사람이 뉴스를 이해하는 방식을 생각해 보자. 우리는 개별 문장을 기억하는 것이 아니라, 사건의 순서와 인과 관계를 머릿속에서 연결한다. "바이든이 토론에서 부진했다 → 여론이 악화되었다 → 결국 철수했다 → 해리스가 후보가 되었다." 이것이 바로 EventRAG가 AI에게 부여하려는 능력이다.
ACL 2025에서 발표된 이 연구는, RAG가 단순한 "검색 + 생성" 파이프라인에서 "이해 + 추론 + 생성" 시스템으로 진화하고 있음을 보여준다. 사건의 흐름을 아는 AI — 그것이 더 정확하고, 더 일관되고, 더 신뢰할 수 있는 AI의 조건이다.
📄 논문: Yang et al., "EventRAG: Enhancing LLM Generation with Event Knowledge Graphs", ACL 2025 (pp. 16967–16979)
🏫 소속: Zhejiang University, University College London, Ant Group
📚 관련 연구:
- Lewis et al., "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (NeurIPS 2020)
- Edge et al., "From Local to Global: A Graph RAG Approach" (2024)
- Guo et al., "LightRAG: Simple and Fast Retrieval-Augmented Generation" (2024)
- Tang & Yang, "MultiHop-RAG: Benchmarking RAG for Multi-hop Queries" (2024)