OG-RAG온톨로지RAG하이퍼그래프도메인 적응사실 기반 추론

OG-RAG: 온톨로지로 RAG에 '전문가의 눈'을 심다

RAG가 문서를 찾아주긴 하는데, 도메인 전문가처럼 '진짜 중요한 사실'을 골라내지 못한다면? Microsoft Research가 제안한 OG-RAG는 온톨로지로 검색을 근거화하여 사실 재현율을 55% 향상시킨다.

코어닷투데이2026-02-0237분

프롤로그: AI 농업 상담사의 치명적 실수

인도의 한 농부가 AI 농업 상담 시스템에 묻는다:

"마디아프라데시 지역에서 대두(Soybean) 파종량은 얼마나 필요한가?"

일반 RAG 시스템은 "대두"와 "파종량"이 포함된 문서 청크를 찾아 답한다:

"대두의 일반적인 파종량은 헥타르당 60~80kg입니다."

얼핏 맞아 보인다. 하지만 전문가라면 이렇게 답했을 것이다:

"마디아프라데시 지역에서 대두 품종 JS335와 JS 95-60의 권장 파종량은 헥타르당 60~~80kg~~이며, 해당 지역의 재배 시기는 67월입니다."

차이가 보이는가? 전문가의 답에는 지역-작물-품종-파종량-시기 사이의 관계가 정확히 반영되어 있다. 일반 RAG는 "60~80kg"이라는 숫자를 맞혔지만, 어떤 품종이, 어떤 지역에서, 언제 그 양이 적용되는지는 놓쳤다.

도메인 전문 지식에서는 개별 사실이 아니라 사실들 사이의 관계가 핵심이다. 그리고 이 관계를 체계적으로 표현하는 도구가 바로 온톨로지(Ontology)다.

온톨로지 기반 지식 구조

이 글에서는 Microsoft Research가 제안한 OG-RAG(Ontology-Grounded Retrieval-Augmented Generation)를 중심으로, RAG에 도메인 전문가의 눈을 심는 기술을 깊이 파헤친다.

제1장: 왜 RAG만으로는 부족한가

RAG의 근본적 한계: 도메인 무지

RAG는 문서를 청크로 쪼개고 임베딩하여 유사도로 검색한다. 이 과정에서 도메인 지식의 구조가 완전히 무시된다.

RAG의 세 가지 근본 한계

1. 도메인 무관 검색

임베딩은 의미적 유사도만 본다. "대두 파종량"과 "대두 수확량"을 구분하지 못하고, 둘 다 "대두"와 유사하다고 판단한다. 도메인에서 이 둘은 완전히 다른 맥락인데도.

2. 관계 파괴

청크 분할 과정에서 "작물→재배지역→기후→파종시기" 같은 도메인 관계가 끊어진다. 각 청크는 독립적인 텍스트 조각일 뿐이다.

3. 맥락 추적 불가

LLM의 답변이 어떤 사실에 근거했는지 추적하기 어렵다. 청크 단위 맥락에서는 "이 숫자가 어디서 왔는가?"를 확인하려면 전체 문서를 다시 봐야 한다.

파인튜닝은 해답이 아니다

파인튜닝으로 도메인 지식을 주입할 수 있지만:

비용이 막대하다 (데이터 큐레이션 + 학습)
도메인이 바뀌면 처음부터 다시 해야 한다
분포 밖 데이터에서 성능이 급감할 수 있다 (Kumar et al., 2022)

GraphRAG도 한계가 있다

GraphRAG는 지식 그래프로 관계를 보존하지만:

도메인 전문 지식에 근거하지 않는 애드혹 엔티티 추출에 의존
복잡한 워크플로우를 생성하면서도 도메인 정밀도가 부족
맥락 귀속(attribution)이 여전히 어렵다

이 세 가지 한계를 동시에 해결하는 것이 OG-RAG다.

제2장: 온톨로지 — 도메인 전문가의 '지도'

온톨로지란 무엇인가

온톨로지는 특정 도메인의 핵심 개념(엔티티)과 그들 사이의 관계를 형식적으로 정의한 것이다. 단순한 분류 체계(taxonomy)와 달리, 비계층적인 복잡한 관계도 표현할 수 있다.

농업 도메인 온톨로지 예시

엔티티

작물(Crop), 토양(Soil), 기후(Weather), 재배지역(CropGrowingZone), 품종(SeedLot)

관계 (속성)

작물 → "재배지역이 있다(has growing zone)" → 재배지역
작물 → "품종이 있다(has seed lot)" → 품종
재배지역 → "지역명이 있다(has name)" → 텍스트 값
품종 → "파종량이 있다(has seeding rate)" → 수치 값

사실 예시

hasGrowingZone(대두, 마디아프라데시) = True ✅
hasSeedingRate(JS335, 60-80kg/ha) = True ✅
이것들은 증거로 검증 가능한 '사실(fact)'이다

온톨로지는 왜 중요한가

온톨로지가 제공하는 것은 도메인 전문가의 사고 방식이다:

특성	일반 RAG	OG-RAG (온톨로지 기반)
검색 기준	텍스트 유사도	도메인 관계 + 텍스트 유사도
정보 구조	평면적 청크	계층적 사실 클러스터
맥락 귀속	청크 단위 (불명확)	사실 단위 (검증 가능)
추론 능력	검색된 텍스트 범위 내	규칙 기반 연역 추론 가능

역사적으로 온톨로지는 1990년대 전문가 시스템(Expert Systems)에서부터 사용되어 왔다. 의료의 SNOMED CT, 법률의 법률 온톨로지, 뉴스의 SNaP(Simple News and Press) 온톨로지 등 수십 년간 축적된 도메인 온톨로지가 이미 존재한다. OG-RAG는 이 축적된 자산을 LLM 시대에 다시 활용하는 것이다.

제3장: OG-RAG의 핵심 — 하이퍼그래프 파이프라인

RAG vs OG-RAG 비교 일러스트

OG-RAG의 파이프라인은 크게 전처리 단계와 검색 단계로 나뉜다.

전처리: 문서를 '사실의 지도'로 변환

Step 1

온톨로지 매핑 — 도메인 문서를 온톨로지에 매핑하여 "사실 블록(factual-block)"으로 변환. LLM이 문서에서 온톨로지 엔티티와 관계를 추출하여 JSON-LD 형식의 구조화된 데이터로 변환한다

Step 2

평탄화(Flattening) — 중첩된 사실 블록을 키-값 쌍의 평면 구조로 변환. 다층 관계를 유지하면서도 검색에 효율적인 형태로 만든다

Step 3

하이퍼그래프 구축 — 평탄화된 사실 블록들을 하이퍼그래프로 변환. 각 하이퍼엣지가 관련 사실의 클러스터를 캡슐화한다

핵심 개념: 하이퍼그래프란?

일반 그래프에서는 하나의 엣지가 두 노드만 연결한다. 하이퍼그래프에서는 하나의 하이퍼엣지가 여러 노드를 동시에 연결할 수 있다.

하이퍼엣지 = 사실(Fact)의 표현

하이퍼노드 (키-값 쌍)

n₁ = (작물 이름, 대두)
n₂ = (재배지역 이름, 마디아프라데시)
n₃ = (품종 이름, JS335)
n₄ = (파종량, 60-80 kg/ha)

하이퍼엣지 (이들을 묶는 사실)

e = {n₁, n₂, n₃, n₄}
→ "대두는 마디아프라데시 지역에서 품종 JS335의 파종량이 60-80 kg/ha이다"

이것이 가능한 이유

일반 그래프(2-노드 엣지)로는 4개 개념을 동시에 묶을 수 없다. 하이퍼그래프만이 다차원적 사실 관계를 하나의 단위로 표현할 수 있다.

이것이 OG-RAG의 핵심 혁신이다. 하이퍼엣지 하나가 곧 하나의 검증 가능한 사실이 된다. "이 답변의 근거가 무엇인가?"에 대한 답이 하이퍼엣지를 보여주는 것만으로 해결된다.

검색: 최소 사실 집합 찾기

질문이 들어오면 OG-RAG는 탐욕 알고리즘(greedy algorithm)으로 최적의 맥락을 구성한다:

1단계

관련 하이퍼노드 찾기 — 질문과 유사도가 높은 하이퍼노드를 두 가지 방식으로 찾는다: (1) 키(엔티티+속성)와의 유사도, (2) 값과의 유사도. 각 방식에서 top-k개씩 총 2k개 노드 선택.

2단계

최소 하이퍼엣지 집합 선택 — 선택된 노드를 가장 많이 커버하는 하이퍼엣지를 하나씩 추가. 모든 관련 노드가 커버되거나 최대 L개에 도달할 때까지 반복. 이것은 최소 집합 커버(set cover) 문제의 탐욕 근사해.

3단계

맥락 구성 & LLM 프롬프팅 — 선택된 하이퍼엣지들을 "유효한 사실 목록"으로 프롬프트에 포함. LLM은 이 사실들만을 근거로 답변 생성.

제4장: 구체적 예시로 이해하기

예시: 농업 질의응답

예시: 뉴스 도메인

뉴스 도메인에서도 온톨로지가 위력을 발휘한다. SNaP(Simple News and Press) 온톨로지는 사건(Event), 인물(Person), 조직(Organization), 자산(Asset) 사이의 관계를 정의한다.

뉴스 온톨로지 적용 예시

질문

"2024년 미국 대선에서 경합주 여론조사 결과는?"

OG-RAG의 사실 클러스터

• 사건(대선) → 날짜(2024-11) → 장소(미국)
• 사건(여론조사) → 관련조직(갤럽) → 결과(수치)
• 장소(펜실베이니아) → 유형(경합주) → 관련사건(대선)

일반 RAG와의 차이

일반 RAG는 "대선"과 "경합주"가 포함된 다양한 기사를 섞어서 반환. OG-RAG는 사건-장소-결과의 관계를 따라 정확한 사실만 추출.

제5장: 실험 결과 — 압도적 차이

실험 환경

논문은 두 가지 도메인에서 OG-RAG를 평가했다:

도메인	데이터	온톨로지
농업 (산업 워크플로우)	대두·밀 재배 관련 전문 문서 85건	농업 전문가가 검증한 자체 온톨로지
뉴스 (지식 워크)	Multi-hop RAG 데이터셋, 2,000단어 이상 심층 기사 149건	SNaP 뉴스 온톨로지 (수정)

비교 대상: RAG, RAPTOR, GraphRAG (모두 GPT-4o, GPT-4o-mini, Llama-3.1-8B, Llama-3.1-70B 4개 LLM에서 테스트)

결과 1: 맥락 검색 품질 — 사실 재현율 55% 향상

대두 데이터셋 — 맥락 검색 성능

OG-RAG 사실 재현율

0.84

RAPTOR 사실 재현율

0.54

GraphRAG 사실 재현율

0.41

RAG 사실 재현율

0.22

OG-RAG의 맥락 재현율(Context Recall)이 0.84로, 일반 RAG(0.22)의 3.8배. 엔티티 재현율(Context Entity Recall)도 0.41로 RAG(0.08)의 5.1배. 이는 OG-RAG가 정답에 필요한 사실을 훨씬 더 정확하게 찾아낸다는 뜻이다.

결과 2: 답변 품질 — 정확도 40% 향상

4개 LLM 전체에서 일관되게 OG-RAG가 최고 성능을 보였다:

LLM	RAG 정확도	RAPTOR 정확도	OG-RAG 정확도
Llama-3.1-8B	0.26	0.34	0.40
Llama-3.1-70B	0.27	0.41	0.54
GPT-4o-mini	0.29	0.34	0.48
GPT-4o	0.31	0.34	0.48

특히 Llama-3.1-70B에서 OG-RAG는 RAG 대비 답변 정확도를 2배 향상시켰다.

결과 3: 맥락 귀속 — 30% 더 빠른 사실 확인

16명의 참가자를 대상으로 한 인간 평가에서:

⏱️

사실 확인 시간 28.8% 단축

RAG: 평균 61.15초 → OG-RAG: 평균 43.50초. 사실 기반 맥락이 구조화되어 있어 사람이 더 빠르게 검증할 수 있다

✅

맥락 지지도 29.6% 향상

RAG: 2.67/5점 → OG-RAG: 3.46/5점. 인간 평가자들이 OG-RAG의 맥락이 답변을 더 잘 뒷받침한다고 판단

결과 4: 연역 추론 — 27% 더 정확한 규칙 적용

OG-RAG의 가장 독특한 능력은 사전 정의된 규칙에 따른 연역 추론이다.

연역 추론 예시 — CO₂ 배출량 계산

주어진 규칙

1. 제초제 1kg 생산 → CO₂ 18.22~26.63kg 배출
2. 제초제 생산량 = 농장 면적 × 권장 제초제 양
3. 북동부 구릉지대 농장 면적 = 1헥타르

질문

"북동부 구릉지대에서 대두 재배 시 제초제로 인한 CO₂ 배출량은?"

OG-RAG의 추론

1. 온톨로지에서 대두의 권장 제초제 양 검색
2. 규칙 적용: 생산량 = 1ha × 권장량
3. CO₂ 배출 = 생산량 × 18.22~26.63kg/kg
→ 정확한 수치로 답변

연역 추론 정확도 (GPT-4o, 대두 데이터)

OG-RAG

0.56

GraphRAG

0.48

RAG

0.44

RAPTOR

0.42

결과 5: 효율성 — GraphRAG보다 5~10배 빠르다

방법	전처리 시간 (초)	쿼리 시간 (초)	비고
RAG	11.41	2.49	가장 빠름
OG-RAG	29.61	3.75	RAG의 약 2배, 정확도는 3배
RAPTOR	71.66	4.81	OG-RAG의 2.4배
GraphRAG	157.04	5.95	OG-RAG의 5.3배

OG-RAG는 RAG와 비슷한 속도를 유지하면서, 정확도는 압도적으로 높다. GraphRAG 대비 전처리 5배, 쿼리 1.6배 빠르다.

제6장: 왜 하이퍼그래프인가 — 일반 그래프와의 차이

하이퍼그래프 시각화

OG-RAG가 일반 지식 그래프 대신 하이퍼그래프를 사용하는 데는 명확한 이유가 있다:

특성	일반 그래프 (GraphRAG)	하이퍼그래프 (OG-RAG)
엣지가 연결하는 노드 수	정확히 2개	임의 개수 (다차원)
사실 표현	"A→관계→B" 이진 관계만	"A+B+C+D가 함께 사실" 복합 관계
맥락 귀속	경로를 따라가야 함	하이퍼엣지 하나가 곧 검증 가능한 사실
검색 결과	노드+엣지의 서브그래프	사실 클러스터의 최소 집합

핵심: "대두의 마디아프라데시 재배지역에서 품종 JS335의 파종량이 60-80kg/ha이다"라는 사실은 4개 개념을 동시에 연결해야 한다. 일반 그래프로는 이를 표현하려면 여러 엣지가 필요하지만, 하이퍼그래프에서는 하나의 하이퍼엣지로 깔끔하게 표현된다.

제7장: 2026년, OG-RAG의 의미와 활용 방향

산업 워크플로우에서의 혁신

농업 지식 그래프 적용

OG-RAG는 정확한 사실 기반 의사결정이 필수인 산업에서 특히 강력하다:

OG-RAG 적용이 유망한 도메인

🏥 의료 SNOMED CT, ICD 온톨로지 활용. 증상→진단→치료→약물의 사실 기반 추론. 환각이 생명을 위협하는 도메인

⚖️ 법률 법률 온톨로지 활용. 조문→판례→해석의 계층적 관계. 정확한 근거 귀속이 필수

🌾 농업 작물-토양-기후-품종 온톨로지. 지역별 맞춤 재배 권고. 실시간 환경 데이터와 결합

📰 조사보도 뉴스 온톨로지(SNaP). 인물-조직-사건-장소의 관계 추적. 팩트체킹과 맥락 귀속

RAG 기술 진화의 로드맵

2020

RAG (Lewis et al.) — 문서 청크 검색 + LLM 생성. 도메인 무관 임베딩 기반. 단순하지만 효과적

2024

GraphRAG (Microsoft) — 지식 그래프 기반 검색. 관계 보존이 가능하지만 도메인 정밀도 부족

2024

OG-RAG (Microsoft Research) — 온톨로지 기반 하이퍼그래프 검색. 도메인 전문 지식 + 사실 귀속 + 연역 추론

2026+

자동 온톨로지 + 적응형 RAG — 질문 복잡도에 따라 RAG/GraphRAG/OG-RAG를 자동 선택하는 통합 시스템

한계와 미래 방향

🔧

온톨로지 구축 비용

도메인별 온톨로지가 필요하다. 논문 저자들은 자동 온톨로지 학습 기법을 개발 중이며, 기존 도메인 온톨로지(SNOMED CT, SNaP 등)를 활용하는 전략도 제시한다

📏

넓은 범위 요약에서의 한계

일부 데이터셋에서 답변 관련성(Answer Relevance)이 소폭 하락. 하이퍼그래프의 넓은 검색 범위가 때때로 불필요한 정보를 포함

🚀

하이브리드 미래

단순 질문 → 일반 RAG, 관계 추론 → GraphRAG, 도메인 전문 → OG-RAG로 자동 라우팅하는 시스템. 이전 글에서 다룬 GraphRAG-Bench의 발견과 결합하면 최적의 전략이 된다

에필로그: 전문가의 눈을 AI에게

다시 인도의 농부에게 돌아가자. OG-RAG가 적용된 시스템이라면:

온톨로지에서 "대두 → 마디아프라데시 → 품종 JS335/JS 95-60" 관계 탐색
하이퍼엣지에서 "품종별 파종량 60-80kg/ha + 파종시기 6-7월" 사실 클러스터 검색
구조화된 맥락으로 LLM에 전달 → 정확하고 근거가 명확한 답변

농부는 단순히 "60-80kg"이라는 숫자가 아니라, 자신의 지역, 자신의 품종, 자신의 상황에 맞는 정확한 조언을 받게 된다. 그리고 그 조언의 근거를 하이퍼엣지 하나로 바로 확인할 수 있다.

"AI에게 전문가의 지식만 주지 말고, 전문가의 사고 방식도 함께 줘라."

이것이 OG-RAG의 핵심 메시지다. 온톨로지는 단순한 데이터 구조가 아니라, 도메인 전문가가 세상을 이해하는 방식을 형식화한 것이다. OG-RAG는 이 사고 방식을 LLM에 주입함으로써, RAG를 단순한 검색 도구에서 도메인 전문 추론 시스템으로 진화시켰다.

📄 원문 논문: Kartik Sharma, Peeyush Kumar, Yunqing Li. "OG-RAG: Ontology-Grounded Retrieval Augmented Generation For Large Language Models." arXiv preprint arXiv:2412.15235, December 2024.

🏢 연구 기관: Microsoft Research, Seattle

기술2026.04.13