
논문을 특허로 바꾸는 AI — FlowPlan-G2P 논문 완전 해부
매년 350만 건의 특허가 출원되지만, 한 건당 수천만 원의 변리사 비용이 든다. FlowPlan-G2P는 논문을 특허 명세서로 변환하는 3단계 구조적 프레임워크로, Llama-4급 오픈 모델이 Claude-4.5를 2배 이상 압도하는 성과를 냈다. 핵심 아이디어부터 '메트릭 패러독스'까지, 이 논문이 왜 중요한지 완전히 해부한다.

매년 350만 건의 특허가 출원되지만, 한 건당 수천만 원의 변리사 비용이 든다. FlowPlan-G2P는 논문을 특허 명세서로 변환하는 3단계 구조적 프레임워크로, Llama-4급 오픈 모델이 Claude-4.5를 2배 이상 압도하는 성과를 냈다. 핵심 아이디어부터 '메트릭 패러독스'까지, 이 논문이 왜 중요한지 완전히 해부한다.

당신이 대학원생이라고 상상해 보자. 6개월간 밤새워 연구한 결과를 논문으로 발표했다. 지도교수가 말한다. "이거 특허 출원하자." 순간 머릿속이 하얘진다.
논문은 "우리 방법이 왜 좋은지" 동료 연구자를 설득하는 글이다. 하지만 특허는 완전히 다른 세계다. "발명이 무엇이고, 어떻게 구현하며, 왜 기존 기술과 다른지"를 법적으로 빈틈없이 기술해야 한다. 같은 기술인데, 글 쓰는 문법이 완전히 다르다.
결국 변리사를 찾게 되고, 청구서를 받는 순간 놀란다 — 한 건당 500만~1,500만 원. 전 세계적으로 매년 350만 건 이상의 특허가 출원되는데, 이 비용은 스타트업과 개인 발명가에게 거대한 장벽이다.
"논문을 넣으면 특허 명세서가 나오는 AI를 만들 수는 없을까?"
이 질문에 답하려는 시도가 바로 FlowPlan-G2P 논문이다.

"GPT한테 시키면 되지 않나?"라고 생각할 수 있다. 실제로 많은 사람들이 시도했다. 그리고 처참하게 실패했다. 왜일까?
논문과 특허는 같은 기술을 완전히 다른 문법으로 서술한다.
| 구분 | 학술 논문 | 특허 명세서 |
|---|---|---|
| 목적 | 동료 연구자 설득 | 발명의 법적 보호 |
| 핵심 어휘 | "state-of-the-art", "outperforms" | "utilitarian function", "embodiment" |
| 강조점 | 실험 결과, 벤치마크 비교 | 구현 방법, 청구 범위 경계 |
| 정보 밀도 | 압축 (간결할수록 좋음) | 확장 (상세할수록 좋음) |
| 구조 | 서론→방법→실험→결론 | 기술분야→배경→요약→상세설명→효과 |
예를 들어 논문에서는 이렇게 쓴다:
"We propose a novel attention mechanism that achieves 92.3% accuracy on ImageNet."
같은 기술을 특허에서는 이렇게 써야 한다:
"본 발명은 이미지 인식 장치에 관한 것으로, 입력 텐서에 대해 쿼리 벡터, 키 벡터, 밸류 벡터를 생성하는 제1 연산 모듈과, 상기 쿼리 벡터와 키 벡터의 내적을 통해 어텐션 가중치를 산출하는 제2 연산 모듈을 포함하되..."
어조, 구조, 용어, 상세도 전부 다르다. 단순한 "번역"이 아니라 사고 체계의 전환이 필요하다.
미국 특허법 35 U.S.C. §112에는 이런 조항이 있다:
명세서는 해당 기술 분야의 통상의 기술자(PHOSITA)가 과도한 실험 없이 발명을 실시할 수 있을 정도로 상세하게 기재해야 한다.
논문의 초록은 5줄이면 충분하지만, 특허의 상세 설명은 수십 페이지에 걸쳐 모든 구현 세부 사항을 논리적으로 펼쳐야 한다. LLM에게 "요약해줘"는 쉽지만, "확장해줘, 그것도 법적으로 유효하게"는 완전히 다른 차원의 문제다.
특허 명세서에는 엄격한 섹션별 역할이 있다:
각 섹션은 독립적이면서도 논리적으로 연결되어야 한다. "문제 → 해결 → 구현 → 효과"라는 인과적 흐름이 수십 페이지에 걸쳐 유지되어야 하는데, 일반 LLM은 긴 텍스트를 생성하면 할수록 논리적 일관성을 잃어버린다.
논문을 특허로 바꾸려는 시도는 FlowPlan-G2P 이전에도 여러 차례 있었다. 흐름을 따라가 보자.
이 중 가장 주목할 만한 건 Pap2Pat이다. 최초로 대규모 논문-특허 쌍 데이터셋을 만들고, "아웃라인을 먼저 생성한 뒤 청크별로 글을 쓰는" 방식을 시도했다. 하지만 정적 아웃라인은 복잡한 발명에 대응하지 못했고, 섹션 간 논리적 연결이 끊기는 문제가 있었다.
핵심 통찰: 기존 접근법들은 모두 특허 생성을 표면적 텍스트 변환(surface-level text transformation) 문제로 봤다. 하지만 진짜 변리사가 하는 일은 논리적 구조를 설계하고, 그 구조 위에 글을 쓰는 것이다.
FlowPlan-G2P는 바로 이 지점을 파고든다.

FlowPlan-G2P의 핵심 아이디어는 단순하면서도 강력하다:
"글을 쓰기 전에 설계도를 먼저 그려라."
숙련된 변리사가 특허를 작성할 때의 사고 과정을 관찰해 보면, 바로 글을 쓰지 않는다. 먼저 논문을 읽고, 머릿속에 "발명의 구조"를 그린다. 어떤 문제가 있고, 어떤 해결책이 있으며, 각 구성 요소가 어떻게 연결되는지 — 이런 개념적 지도를 먼저 만든 다음에 글을 쓴다.
FlowPlan-G2P는 이 인지적 과정을 3단계로 명시적으로 모델링한다:
각 단계를 자세히 살펴보자.
첫 번째 단계는 논문을 읽고 "발명의 뼈대"를 추출하는 것이다.
논문의 내용을 다음 9가지 카테고리로 분해한다:
LLM이 논문을 읽으며 각 카테고리에 대한 구조화된 텍스트를 순차적으로 생성한다. 여기서 중요한 건 이전 단계의 출력을 다음 단계의 입력에 포함시킨다는 점이다. "기술 분야"를 먼저 정의하고, 그 위에 "기술적 문제"를 정의하고, 그 위에 "해결책"을 정의하는 식이다. 이렇게 하면 인과적 연속성이 자연스럽게 유지된다.
다음으로, 추출한 개념들을 방향 그래프(Directed Concept Graph)로 변환한다.
solves, implements, causes, improves, validates여기서 독특한 점은 3개의 후보 그래프를 동시에 생성한다는 것이다:
이 3개의 그래프를 다수결 투표(majority voting)와 합집합(union semantics)으로 병합하여 최종 그래프 G*를 만든다. 갈등하는 엣지 타입은 다수결로 해결하고, 고립된 노드는 제거하며, 필수 노드(Field, TechProblem, Solution)가 빠져있으면 플레이스홀더를 자동 주입한다.
왜 3개나? 하나의 방법으로는 모든 관계를 포착하기 어렵기 때문이다. 규칙 기반은 명시적 관계를 놓치지 않지만 암묵적 관계를 놓치고, LLM 기반은 그 반대다. 세 가지를 합치면 구조적 리콜(structural recall)이 극대화된다.

두 번째 단계는 개념 그래프를 법적으로 유효한 특허 섹션으로 재구성하는 것이다.
그래프 G*의 노드들을 특허의 표준 섹션에 배치한다:
문제 → 해결 → 구현 → 효과라는 전역적 서사 흐름이 반드시 유지되어야 한다.
5개의 후보 계획을 생성하고, 두 가지 정량적 기준으로 평가한다:
| 지표 | 설명 | 임계값 |
|---|---|---|
| 섹션 내 연결성 (C) | 한 섹션에 배치된 노드들이 실제로 엣지로 연결되어 있는 비율 | C ≥ 0.5 |
| 의미적 일관성 (Sim) | 노드 타입의 엔트로피 기반 동질성 (같은 유형의 노드끼리 묶였는가) | Sim ≥ 0.6 |
두 기준을 모두 충족하는 계획을 채택하고, 충족하는 게 없으면 합산 점수가 가장 높은 것을 선택한다. 추가로 규칙 기반 프루닝도 적용한다 — 예를 들어 "실시예가 기술적 문제보다 앞에 나오는" 비논리적 구성은 자동 거부된다.
마지막 단계는 설계도를 바탕으로 실제 특허 문장을 생성하는 것이다.
각 섹션의 서브그래프를 선형화(linearize)한 뒤, 섹션별 특화 프롬프트와 함께 LLM에 입력한다:
섹션별 전략도 다르다:
생성 시 낮은 온도(τ=0.2)를 사용해 환각을 최소화하고, 전문 특허 코퍼스의 퓨샷 예시를 포함해 스타일 드리프트를 방지한다. 생성 후에는 LLM 기반 함의(entailment) 검증으로 원본과의 의미적 충실도를 확인하고, 불일치가 크면 재생성을 트리거한다.
평가에는 기존 Pap2Pat 데이터셋을 정제한 Pap2Pat-EvalGold를 사용했다. 원본 데이터셋에는 노이즈가 많았기 때문에, 두 가지 필터를 적용했다:
결과: 146쌍의 고품질 논문-특허 쌍.
모든 비교에 Claude-4.5를 백본으로 사용:
Pat-DEVAL 종합 점수(5점 만점) 기준, FlowPlan-G2P는 4.8점으로 기존 SOTA인 Pap2Pat(3.1점)을 54% 이상 앞섰다. 4가지 세부 지표에서도 모두 압도적이다:
| 모델 | 기술 충실도 (TCF) | 데이터 정밀도 (DP) | 구조 커버리지 (SC) | 법적 적합성 (LPC) |
|---|---|---|---|---|
| Zero-Shot | 1.8 | 1.5 | 1.9 | 1.6 |
| Few-Shot | 2.4 | 2.1 | 2.5 | 2.2 |
| Pap2Pat | 3.5 | 3.2 | 3.4 | 3.1 |
| FlowPlan-G2P | 4.6 | 4.5 | 4.7 | 4.8 |
특히 법적-전문적 적합성(LPC) 4.8점은 사실상 전문 변리사 수준에 근접한 결과다.

이 논문의 가장 충격적인 발견은 성능 자체가 아니다. 기존 평가 지표가 완전히 틀렸다는 것이다.
| 모델 | ROUGE-L | BERTScore | 전문가 법적 평가 |
|---|---|---|---|
| Zero-Shot | 0.178 | 0.870 | 1.5 / 5 |
| Few-Shot | 0.138 | 0.834 | 2.1 / 5 |
| FlowPlan-G2P | 0.169 | 0.830 | 4.7 / 5 |
놀랍게도 Zero-Shot이 가장 높은 ROUGE-L(0.178)과 BERTScore(0.870)를 기록했다. 하지만 전문가 평가에서는 1.5점 — 법적으로 무효 수준이었다.
반면 FlowPlan-G2P는 ROUGE-L과 BERTScore가 오히려 낮지만, 전문가 평가에서 4.7점 — 거의 완벽한 결과를 받았다.
저자들은 이를 "메트릭 패러독스(Metric Paradox)"라고 명명했다. 특허 도메인에서 기존 NLG 지표를 신뢰하면 법적으로 무효한 텍스트에 가장 높은 점수를 주게 된다.
이를 해결하기 위해 논문은 Pat-DEVAL이라는 특허 전문 평가 프레임워크를 사용했다. Chain-of-Legal-Thought(CoLT) 메커니즘으로 통상의 기술자(PHOSITA)의 사고를 시뮬레이션하며, 인간 전문가와의 상관계수(Kendall's tau)가 0.67~0.76으로 높은 일치도를 보였다.
이 논문에서 두 번째로 중요한 발견:
FlowPlan-G2P를 장착한 Llama-4-scout가 아무것도 없는 Claude-4.5를 2배 가까이 이긴다.
| LLM 백본 | Vanilla (Few-Shot) | + FlowPlan-G2P | 향상률 |
|---|---|---|---|
| Llama-4-scout | 2.0 | 4.3 | +115% |
| DeepSeek-v3.1 | 2.2 | 4.6 | +109% |
| Claude-4.5 | 2.3 | 4.8 | +109% |
Pat-DEVAL 종합 점수 (5점 만점) 시각화:
이 결과가 의미하는 바는 크다:
이는 단순히 특허 분야에만 해당하는 통찰이 아니다. 복잡한 전문 문서 생성에서 "구조적 중간 표현"의 힘을 보여주는 사례다.
실제로 어떻게 작동하는지, 가상의 예시로 살펴보자.
가상의 논문 "EfficientAttention: A Lightweight Self-Attention for Mobile Vision"이 있다고 하자.
논문의 "우리가 이겼다" 식 서술이 "~의 문제가 있었다" → "따라서 ~가 요구된다"라는 특허 특유의 인과적 서술로 완전히 재구성된 것을 볼 수 있다.
특허 출원의 가장 큰 장벽은 비용이다. 한 건당 수백만 원의 변리사 비용은 대학 연구실, 1인 창업가, 개발도상국 발명가에게 사실상 접근 불가능한 벽이다. FlowPlan-G2P 같은 기술이 상용화되면, 초안 생성 비용이 90% 이상 절감될 수 있다. 물론 최종 검토는 변리사가 해야 하지만, "백지에서 시작"하는 것과 "80% 완성된 초안을 다듬는 것"은 천지 차이다.
매년 수백만 편의 학술 논문이 발표되지만, 특허로 이어지는 비율은 극히 낮다. 이유 중 하나가 "논문은 쓸 줄 알지만 특허는 어떻게 써야 할지 모르겠다"는 것이다. 논문→특허 변환이 자동화되면, 실험실의 연구 성과가 산업적 보호를 받는 속도가 빨라진다.
FlowPlan-G2P의 진짜 기여는 특허 분야에만 있지 않다. "복잡한 문서는 바로 쓰지 말고, 먼저 구조를 설계하라"는 원칙은 다음에도 적용 가능하다:
어떤 분야든 엄격한 구조와 전문 용어, 법적/규제적 요건이 있는 문서 생성에서 "개념 그래프 → 계획 → 생성" 패러다임은 게임 체인저가 될 수 있다.
메트릭 패러독스의 발견은 NLP 커뮤니티 전체에 중요한 경고다. 도메인 전문 지식이 필요한 텍스트를 ROUGE/BERTScore로 평가하면 완전히 잘못된 결론에 도달할 수 있다. 법률, 의료, 금융 등 전문 도메인의 텍스트 생성 연구에서 도메인 특화 평가 프레임워크(Pat-DEVAL 같은)의 필요성이 부각된다.
FlowPlan-G2P 논문이 던지는 메시지는 명확하다:
LLM에게 "글 써줘"라고 하는 것과 "먼저 설계하고 그 다음에 써"라고 하는 것은 전혀 다른 결과를 낳는다.
이 원칙은 특허뿐 아니라, 복잡한 구조를 가진 모든 전문 문서에 적용된다. 그리고 이 논문이 보여준 것처럼, 올바른 방법론은 올바른 모델보다 강하다. Llama-4에 구조적 프레임워크를 얹으면 Claude-4.5를 단독으로 사용하는 것보다 2배 나은 결과를 낸다.
2026년은 AI가 단순히 "글을 쓰는 도구"에서 "전문가의 사고 과정을 모방하는 시스템"으로 진화하는 전환점이다. FlowPlan-G2P는 그 전환의 좋은 사례다 — 표면적 패턴 매칭에서 구조적 추론으로, 벤치마크 최적화에서 실세계 유효성으로.
다음에 "이 논문으로 특허 써줘"라고 ChatGPT에 부탁하고 싶어질 때, 이 논문을 떠올려 보자. "먼저 개념 그래프를 그려"라고 한마디 더하는 것만으로, 결과물의 품질이 완전히 달라질 수 있다.