LLM 추론시맨틱 웹OWLSWRL구조적 분해신경-상징 통합지식 그래프온톨로지

LLM + 시맨틱 웹: AI의 '감'을 '논리'로 바꾸는 법 — Structured Decomposition 논문 해부

GPT-5도 규칙을 일관되게 적용하지 못한다. 이 논문은 LLM을 '온톨로지 채우기 엔진'으로 재정의하고, SWRL 추론기가 규칙을 결정론적으로 적용하는 신경-상징 통합 프레임워크를 제안한다. 법률, 의학, 과학 3개 도메인에서 11개 모델로 검증한 결과를 해부한다.

코어닷투데이2025-12-0630분

신경망과 상징 논리가 만나는 지점 — LLM의 유연함과 형식 추론의 엄밀함을 연결하는 다리

들어가며: GPT-5도 규칙을 못 지키는 이유

2026년 초, 법률 AI 스타트업이 GPT-5.2에게 이런 질문을 했다고 하자:

"증인이 법정 밖에서 '피고인이 도망가는 것을 봤다'고 말한 내용을 검찰이 법정에서 인용했습니다. 이것은 전문증거(hearsay)인가요?"

미국 연방증거규칙 제801조에 따르면, 전문증거의 판단은 세 가지 조건을 모두 충족해야 한다:

진술(statement)인가?
법정 밖(out of court)에서 이루어졌는가?
진술에 포함된 주장(assertion)의 진실성을 증명하기 위해 제출되었는가?

이론적으로 간단하다. 세 조건을 확인하고 AND로 결합하면 끝이다. 하지만 GPT-5.2는 이 "간단한" 규칙을 일관되게 적용하지 못한다. 같은 사안에 대해 물을 때마다 다른 답이 나올 수 있다. 세 조건 중 하나를 빠뜨리기도 하고, 조건을 충족하지 않는데 "전문증거"라고 판단하기도 한다.

왜? LLM은 규칙을 "이해"하는 것이 아니라 "근사"하기 때문이다. 학습 데이터에서 "전문증거"와 관련된 패턴을 흉내 내지만, 논리적 규칙을 엄밀하게 적용하는 메커니즘이 없다.

이 문제에 대해 2026년 1월, Albert Sadowski와 Jaroslaw A. Chudziak가 정면으로 답하는 논문을 발표했다.

"Structured Decomposition for LLM Reasoning: Cross-Domain Validation and Semantic Web Integration."

핵심 제안: LLM을 "추론 엔진"이 아니라 "온톨로지 채우기(ontology population) 엔진"으로 재정의하라. 비정형 텍스트에서 구조화된 정보를 추출하는 것은 LLM에게 맡기고, 규칙 적용은 시맨틱 웹 추론기(SWRL reasoner)에게 맡긴다. 법률, 의학, 과학 3개 도메인에서 11개 모델로 검증한 결과, 이 접근이 few-shot 프롬프팅 대비 통계적으로 유의미한 성능 향상을 보였다.

제1장: 배경 — AI의 두 세계

LLM(눈)이 문서를 읽고 핵심을 추출하면, 논리 엔진(두뇌)이 규칙에 따라 정리하는 분업

신경망의 세계: 유연하지만 불확실

LLM은 놀라운 유연성을 가지고 있다. 자연어를 이해하고, 맥락을 파악하고, 모호한 표현을 해석한다. 하지만 세 가지 근본적 한계가 있다:

불투명한 추론: 왜 그런 결론을 냈는지 설명할 수 없다
일관성 부재: 같은 입력에 대해 다른 출력을 낼 수 있다
환각(hallucination): 근거 없는 사실을 자신 있게 주장할 수 있다

법률, 의학, 과학 — 결정이 감사 가능(auditable)하고 정당화 가능(justifiable)해야 하는 도메인에서 이 한계는 치명적이다.

상징 시스템의 세계: 엄밀하지만 경직

반대편에는 전통적 상징 시스템이 있다. OWL 온톨로지, SWRL 규칙, SPARQL 쿼리 — 이 시스템들은 결정론적이고 감사 가능하고 일관된 추론을 보장한다.

하지만 치명적 약점이 있다 — 구조화된 입력이 필요하다. "증인이 법정 밖에서 말한 내용"이라는 자연어 문장을 직접 처리할 수 없다. 누군가가 먼저 이 문장에서 Statement, OutOfCourt, Assertion 같은 구조화된 개체를 추출해야 한다.

이 논문의 핵심 통찰

LLM에게 규칙 적용을 시키지 말고, 정보 추출만 시켜라. 규칙 적용은 상징 추론기에게 맡겨라.

LLM은 자연어를 이해하는 "눈"이고, SWRL 추론기는 규칙을 적용하는 "두뇌"다. 눈에게 판단을 시키면 안 된다 — 눈은 보는 것, 두뇌는 판단하는 것.

비정형 텍스트 → LLM (개체 추출) → OWL ABox (구조화) → SWRL 추론기 (규칙 적용) → 결정

제2장: 시맨틱 웹 기술 30초 요약

이 논문을 이해하려면 몇 가지 시맨틱 웹 개념을 알아야 한다. 최대한 쉽게 설명한다.

OWL 온톨로지: 세상을 정의하는 사전

OWL(Web Ontology Language)은 "세계의 구조"를 정의하는 형식 언어다. 두 부분으로 나뉜다:

TBox (용어 상자): "어떤 종류의 것들이 존재하는가?" — 클래스, 속성, 관계의 정의. 사전이나 스키마에 해당.
ABox (주장 상자): "구체적으로 무엇이 존재하는가?" — 개별 개체, 구체적 사실. 데이터에 해당.

비유하자면:

TBox = "사람은 이름과 나이를 가진다. 환자는 사람의 하위 유형이다." ABox = "홍길동은 사람이다. 홍길동의 나이는 35이다."

SWRL 규칙: IF-THEN의 형식화

SWRL(Semantic Web Rule Language)은 OWL에 규칙을 추가한다. 형식:

조건(전제) → 결론(결과)

전문증거 판단을 SWRL로 쓰면:

전문증거 판단 SWRL 규칙

Statement(?s) ∧ IsOutOfCourt(?s, true) ∧ hasAssertion(?s, ?a) ∧ ProvesTruthOfAssertion(?s, true)
→ Hearsay(?s)

"?s가 진술이고, 법정 밖에서 이루어졌고, 주장을 포함하며, 그 주장의 진실성을 증명하기 위해 제출되었으면 → 전문증거다."

SPARQL: 지식 그래프에 질문하기

OWL 온톨로지에 저장된 데이터를 쿼리하는 언어. SQL이 관계형 데이터베이스를 쿼리하듯, SPARQL은 온톨로지를 쿼리한다.

제3장: 프레임워크 설계 — 세 단계의 파이프라인

3단계 파이프라인을 공장 컨베이어벨트로 비유: 텍스트 수집 → 라벨링 → 최종 판정

Step 1: 개체 식별 (Entity Identification)

LLM이 비정형 텍스트를 읽고, TBox에 정의된 클래스에 해당하는 개체(entity)를 추출한다.

입력: "증인 A가 사건 현장에서 '피고인이 도망갔다'고 말했다."

LLM 출력:

개체 1: "증인 A의 진술" → 클래스: Statement

개체 2: "'피고인이 도망갔다'" → 클래스: Assertion

각 개체에 대해: 추출된 텍스트 범위, 할당된 식별자, 자연어 설명(왜 이 개체를 식별했는지).

Step 2: 주장 추출 (Assertion Extraction)

추출된 개체들 사이의 속성과 관계를 결정한다. 각 속성에 대해 참/거짓 판단과 텍스트 근거를 생성한다.

IsOutOfCourt(진술1) = true (근거: "사건 현장에서" 발언 → 법정 밖)

ProvesTruthOfAssertion(진술1) = true (근거: 검찰이 피고인의 도주 사실을 증명하기 위해 인용)

Step 3: SWRL 규칙 적용

추출된 개체와 주장이 OWL ABox에 채워지면, Pellet 추론기가 SWRL 규칙을 결정론적으로 적용한다.

세 조건이 모두 true → Hearsay 클래스 추론. 하나라도 false → 추론 안 됨.

3단계 파이프라인의 역할 분담

Step 1: 개체 식별 LLM 담당 — "무엇이 있는가?"

Step 2: 주장 추출 LLM 담당 — "어떤 속성을 가지는가?"

Step 3: 규칙 적용 SWRL 추론기 — "따라서 결론은?"

핵심: 모든 가변성은 Step 1, 2의 LLM에서 발생한다. Step 3의 상징 추론기는 완전히 결정론적이다. 같은 ABox가 주어지면 항상 같은 결론을 낸다.

제4장: 세 도메인의 검증

법률, 의학, 과학 — 세 도메인을 관통하는 검증

도메인 1: 법률 — 전문증거 판단

출처: LegalBench (미국 연방증거규칙 제801조)

증거법에서 전문증거 판단은 실무적으로 매우 중요하다. 전문증거는 원칙적으로 배제되므로, 이 판단이 재판의 방향을 바꿀 수 있다.

SWRL 규칙으로 형식화된 3개 조건: 진술인가 + 법정 밖인가 + 주장의 진실성 증명 목적인가.

도메인 2: 과학 — 연구 방법론 적용 판단

출처: SciERC (과학 논문의 Used-For 관계)

"이 논문에서 SVM이 텍스트 분류에 실제로 적용되었는가?" 단순 동시 출현(co-occurrence), 비교(comparison), 분류(taxonomy)와 진정한 적용(application)을 구별해야 한다.

SWRL: 방법인가 + 태스크인가 + 기능적 연결이 있는가 + 배제 관계가 아닌가.

도메인 3: 의학 — 임상시험 적격성

출처: NLI4CT (임상시험 자연어 추론)

"이 환자의 조건이 임상시험의 선정/제외 기준을 충족하는가?" 의학 용어의 동의어(예: "고혈압" = "hypertension"), 암묵적 제외 논리를 처리해야 한다.

SWRL: 적격성 진술인가 + 적격성 기준인가 + 전제에서 도출되는가.

태스크 적합성 조건

논문은 프레임워크의 적용 범위를 명확히 제한한다. 두 가지 조건을 모두 충족해야 한다:

규칙으로 표현 가능한 결정 경계: 분류가 추출 가능한 술어의 논리식으로 완전히 결정되어야 한다
형식화 가능한 술어 구조: 이산적 술어로 분해 가능하고, 그 논리적 조합이 필요충분조건을 포착해야 한다

반례 검증 (URTI 진단): 상기도감염 진단 같은 통계적 패턴 매칭 태스크에 적용하면 F1 0.145 (few-shot 0.979 대비 처참). 프레임워크의 범위를 벗어나는 태스크임을 확인.

제5장: 실험 설계 — 11개 모델, 6가지 조건

테스트된 모델

11개 테스트 모델 (4개 제공자)

OpenAI GPT-5 Nano, Mini, 5.2, o3

Anthropic Claude 4.5 Sonnet, Haiku

Google Gemini 2.5 Pro, Flash

Fireworks AI Qwen 3, DeepSeek v3.2, Kimi K2

6가지 실험 조건

조건	설명	상징 검증	보완 술어
Few-Shot (FS)	기본 프롬프팅	❌	❌
Chain-of-Thought (CoT)	단계별 사고 유도	❌	❌
SD	구조적 분해 + SWRL	✅	❌
SD-Comp	SD + 보완 술어	✅	✅
SD-Direct	구조적 분해만 (SWRL 없음)	❌	❌
SD-Direct-Comp	SD-Direct + 보완 술어	❌	✅

SD vs SD-Direct의 비교가 핵심 — SWRL 추론기의 기여를 순수하게 분리하기 위한 설계.

제6장: 결과 — 상징 검증이 만드는 차이

SD(구조적 분해+SWRL)가 우승 트로피를 들고 포디움 1위에 서 있다

전체 성능

전체 F1 점수 (11모델 × 3도메인 평균)

SD (구조적분해+SWRL)

79.8%

Few-Shot

75.2%

CoT

74.1%

SD-Direct (SWRL 없음)

70.1%

SD vs Few-shot: +4.6%p, t(32)=2.88, p=0.007, Cohen's d=0.50 (중간 효과 크기)

핵심 발견 1: SWRL 추론기가 진짜 차이를 만든다

SD (79.8%) vs SD-Direct (70.1%): +9.7%p, p=0.001

이 차이가 논문의 가장 중요한 발견이다. 구조적 분해를 하되 SWRL 추론기 없이 LLM에게 최종 판단을 시키면, 오히려 기본 few-shot보다 성능이 떨어진다 (70.1% < 75.2%).

왜? 분해 과정에서 새로운 오류가 유입되기 때문이다. 개체 추출에서 실수하고, 주장 추출에서 또 실수하고, 그 실수들이 누적된다. SWRL 추론기가 이 누적된 오류를 교정하고 제약하는 역할을 한다.

"구조적 분해 자체는 도움이 안 된다. 구조적 분해 + 상징 검증이 도움이 된다."

핵심 발견 2: 임상시험에서 가장 큰 효과

도메인별 SD vs SD-Direct 차이:

도메인	SD	SD-Direct	차이
임상시험 적격성	74.4%	54.5%	+19.9%p
연구 방법 적용	88.9%	80.4%	+8.5%p
전문증거 판단	75.9%	75.2%	+0.7%p

임상시험에서 SWRL 추론기 없이 LLM만으로 최종 판단하면 54.5% — 동전 던지기 수준. 의학 용어의 복잡성과 암묵적 논리 때문이다. SWRL 추론기가 이를 20%p 가까이 끌어올린다.

핵심 발견 3: 보완 술어는 오히려 해롭다

이전 연구에서는 "보완 술어(complementary predicates)" — 긍정/부정 쌍을 모두 명시적으로 추출 — 이 성능을 높인다고 보고되었다. 하지만 이 논문에서는 반대 결과:

SD (79.8%) vs SD-Comp (74.8%): -5.0%p, p=0.001

보완 술어가 성능을 떨어뜨렸다. 저자들의 해석: 이전 세대 모델(o1, o3-mini)에서는 "확인 편향(confirmation bias)" 교정이 필요했지만, 현재 세대 모델들은 이 문제가 덜하다. 더 간단한 온톨로지가 더 낫다.

모델별 분석

모델별 SD 적용 효과 (Few-shot 대비 평균 F1 변화)

+9.5%p

Claude 4.5 Sonnet

+7.5%p

GPT-5.2

+6.3%p

GPT-5 Nano

+5.2%p

GPT-5 Mini

+4.0%p

Claude 4.5 Haiku

-6.4%p

11개 모델 중 9개에서 긍정적 효과. 큰 모델일수록 효과가 크다 — Claude Sonnet (+10.8%p) vs Haiku (-6.1%p), Gemini Pro (+8.3%p) vs Flash (+0.6%p). 프레임워크는 모델 품질의 대체재가 아니라 증폭기다.

제7장: 왜 이 연구가 중요한가 — 실무적 함의

1. 감사 가능한 AI 의사결정

채워진 ABox는 완전한 추론 추적(reasoning trace)을 제공한다. SPARQL로 쿼리하면 "왜 이 사안이 전문증거로 판단되었는가?"에 대한 구조화된 답변을 얻을 수 있다.

# 전문증거로 판단된 사안의 근거 조회
SELECT ?statement ?property ?value ?justification
WHERE {
  ?statement rdf:type :Hearsay .
  ?statement ?property ?value .
  ?statement :hasJustification ?justification .
}

이것은 EU AI Act의 설명 가능성 요건, 미국 FDA의 AI 의사결정 감사 요건 등 규제 준수에 직접적으로 도움이 된다.

2. 도메인 전문가가 직접 규칙을 편집

TBox와 SWRL 규칙은 Protégé 같은 표준 도구로 편집할 수 있다. 법률 전문가가 코드를 쓰지 않고도 "이 조건을 추가하고 싶다"면 온톨로지에 속성을 추가하고 SWRL 규칙을 수정하면 된다. LLM 재학습이나 프롬프트 재설계가 필요 없다.

3. 높은 재현율(Recall)이 적합한 분야

SD의 재현율은 84.7% (few-shot: 69.0%, +15.7%p). 정밀도는 약간 떨어진다 (79.4% vs 85.3%). 이것은 위양성(false positive)보다 위음성(false negative)이 더 비싼 분야에 적합하다:

규제 준수 스크리닝: 위반 사항을 놓치는 것이 과잉 플래깅보다 위험
임상시험 적격성: 적격 환자를 놓치면 치료 기회 상실
증거 검토: 관련 증거를 빠뜨리면 재판에 불리

4. 기존 시맨틱 웹 인프라와 통합

채워진 ABox는 표준 시맨틱 웹 도구와 즉시 통합된다. SPARQL 엔드포인트, 트리플 스토어, 연결된 데이터(Linked Data) 생태계. 기존에 SNOMED CT, LOINC(의학), FIBO(금융), LKIF(법률) 같은 도메인 온톨로지를 사용하는 조직이라면, 이 프레임워크를 그 위에 쌓을 수 있다.

제8장: 더 넓은 맥락 — 신경-상징 통합의 흐름

Chain-of-Thought에서 Structured Decomposition까지

LLM의 추론 능력을 개선하려는 시도는 계보가 있다:

2022 CoT → 2023 ToT/GoT → 2024 ReAct → 2026 구조적 분해 + 상징 검증

CoT (2022): "단계별로 생각해" — 중간 추론 과정을 유도. 추론의 형식을 바꿈.
ToT/GoT (2023): 여러 경로를 탐색. 추론의 구조를 바꿈.
ReAct (2023): 추론과 행동을 교차. 추론의 범위를 확장.
구조적 분해 + 상징 검증 (2026): 추출과 판단을 분리하고, 판단을 형식 추론기에 위임. 추론의 아키텍처를 바꿈.

제9장: 한계와 미래 방향

논문은 9가지 한계를 솔직하게 인정한다:

소규모 테스트셋: 도메인당 94개 인스턴스. 대규모 검증 필요.
이진 분류만 테스트: 다중 클래스, 다중 레이블은 미검증.
적합성 조건이 엄격: 규칙으로 형식화할 수 없는 태스크에는 적용 불가.
계산 비용 미보고: LLM API 호출 3회(개체 식별 + 주장 추출 + SD-Direct의 경우 추가 1회)의 비용 분석 부재.
외부 도메인 온톨로지 미통합: SNOMED CT, LKIF 등과의 통합은 미래 과제.

향후 연구 방향:

다중 클래스 설정 (클래스 계층 활용)
신뢰도 기반 추출 (불확실한 주장에 가중치 부여)
규칙 복잡도 임계값 연구 (어느 수준의 규칙에서 상징 검증의 이점이 사라지는가)

마치며: LLM의 올바른 역할

신경망 AI와 상징 추론이 악수하며 협력하는 모습

이 논문의 가장 깊은 통찰은 LLM의 역할을 재정의한 것이다.

LLM은 "모든 것을 할 수 있는 범용 AI"가 아니다. 비정형 텍스트에서 구조화된 정보를 추출하는 것 — "보는 것" — 에 탁월하다. 하지만 추출된 정보에 규칙을 일관되고 결정론적으로 적용하는 것 — "판단하는 것" — 은 상징 시스템이 더 낫다.

이 논문은 LLM에게 "판단"을 시키려고 씨름하는 대신, LLM을 "온톨로지 채우기 엔진"으로 재정의하고, 판단은 30년 역사의 검증된 상징 추론 기술에 맡기는 우아한 분업을 보여준다.

2026년, LLM은 점점 더 똑똑해지고 있다. 하지만 "똑똑함"과 "일관된 규칙 적용"은 다른 능력이다. 법률 판단, 의료 적격성, 과학적 방법론 검증 — 감사 가능하고 정당화 가능한 의사결정이 필요한 곳에서, 신경과 상징의 결합이 어느 쪽 단독보다 강력하다는 것을 이 논문이 실험적으로 증명했다.

눈은 보고, 두뇌는 판단한다. 각자 잘하는 일을 하는 것이 팀워크다.

참고 문헌

Sadowski, A. & Chudziak, J.A. (2026). Structured Decomposition for LLM Reasoning: Cross-Domain Validation and Semantic Web Integration. arXiv:2601.01609.
Sadowski, A. & Chudziak, J.A. (2025). Explainable Rule Application via Structured Prompting. Procedia Computer Science, 270, 2166-2175.
Wei, J., et al. (2023). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
Yao, S., et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023.
Hitzler, P., et al. (2012). OWL 2 Web Ontology Language Primer. W3C.
Sirin, E., et al. (2007). Pellet: A Practical OWL-DL Reasoner. J. Web Semantics, 5(2), 51-53.
Khot, T., et al. (2023). Decomposed Prompting: A Modular Approach. ICLR 2023.
Tan, Q., et al. (2024). Thought-like-Pro: Self-driven Prolog-based Chain of Thought. COLING 2024.

기술2026.04.07