coredot.today
만능 선수가 전문가를 이겼다: 범용 LLM이 전문 의료 AI를 압도한 날 — Nature Medicine 2026 완전 해부
블로그로 돌아가기
의료 AI범용 LLMGPT-5.2Gemini 3.1 ProClaude Opus 4.6OpenEvidenceUpToDateRAGMedQAHealthBenchNature MedicineNYU Langone임상 AI 평가

만능 선수가 전문가를 이겼다: 범용 LLM이 전문 의료 AI를 압도한 날 — Nature Medicine 2026 완전 해부

‘의료 전용으로 만든 AI가 당연히 더 낫다’ — 60년간 의심받지 않던 이 가정이 처음으로 무너졌다. NYU Langone·UT오스틴 연구진이 *Nature Medicine*(2026.6)에 발표한 독립 검증에서, 범용 프런티어 LLM(GPT-5.2·Gemini 3.1 Pro·Claude Opus 4.6)이 전문 의료 AI(OpenEvidence·UpToDate Expert AI)를 *세 가지 평가 전부*에서 앞섰다. 실제 의사 질문 100개를 *12명이 맹검*으로 채점한 실전 벤치마크(RCQ)에서도 결과는 같았다. 왜 ‘전문가’가 ‘만능 선수’에게 졌을까? RAG가 오히려 독이 되는 이유, USMLE·MedQA·HealthBench의 정체, 그리고 2026년 병원 구매·규제·한국 의료 AI에 던지는 질문까지 — 의학사 60년을 거슬러 쉽고 자세하게 해부한다.

코어닷투데이2026-06-1847

프롤로그: 레지던트의 작은 반란

2026년 3월, 미국 어느 대형 병원의 내과 의국. 새벽 2시.

3년 차 레지던트 J는 — 복잡한 약물 상호작용 문제로 막혀 있다. 병원이 연간 수백만 원을 주고 도입한 전문 임상 AI를 켠다. 검증된 의학 문헌을 실시간으로 뒤져 답해 준다는, 의사 전용으로 만들어진 그 도구. 그런데 답이 — 길고, 산만하고, 정작 핵심을 비껴간다. 19%의 확률로는 "답할 수 없다"며 거절까지 한다.

J는 한숨을 쉬고, 자기 휴대폰을 꺼내 범용 챗봇에게 같은 질문을 던진다. 의료 전용이 아닌, 그냥 세상 모든 것에 답하는 그 모델. 30초 뒤 — 정확하고, 깔끔하고, 빠져선 안 될 경고(red flag)까지 짚은 답이 나온다.

J는 잠깐 멈칫한다. "전문 도구가 더 나아야 하는 거 아닌가?"


이 장면은 J 한 명의 일화가 아니다. 2026년 6월 12일, 의학계 최고 권위지 《Nature Medicine》에 실린 한 편의 논문이 — 바로 그 직관을 데이터로 검증했다. 제목은 직설적이다.

"General-purpose large language models outperform specialized clinical AI tools on medical benchmarks" (범용 대규모 언어모델이 전문 임상 AI 도구를 의료 벤치마크에서 능가한다) — Vishwanath et al., Nature Medicine (2026). NYU Langone Health · UT Austin · NYU.

만능 AI가 전문 의료 AI를 이기는 장면 — 작은 범용 AI 로봇이 거대한 전문 의료 기계들과 병원 경기장에서 맞서고, 의사들이 심판석에서 지켜본다

결론은 한 문장으로 요약된다. ‘의료 전용으로 특화했으니 당연히 더 낫겠지’라는 60년 묵은 가정은, 적어도 지금은 틀렸다. 그것도 시험 문제에서만이 아니라 — 실제 의사들이 던진 실전 질문에서까지.

이 글은 코어닷투데이 의료 AI 시리즈의 연장선이다. 앞선 글들이 누가 시장을 차지하는가를 다뤘다면, 이번엔 더 근본적인 질문이다 — 무엇이 진짜로 더 잘하는가, 그리고 우리는 그걸 어떻게 알 수 있는가.


1장. 결론부터: 충격적인 스코어보드

자세한 설명에 앞서, 이 논문이 측정한 핵심 숫자부터 보자. 연구진은 3종류의 AI3개의 평가로 겨루게 했다.

3 범용 프런티어 LLM GPT-5.2 · Gemini 3.1 Pro · Claude Opus 4.6
2 전문 의료 AI 도구 OpenEvidence · UpToDate Expert AI
1,800 의사 맹검 채점 건수 실전 질문 100개 × 6모델 × 3명 채점

겨룬 무대는 세 곳이었다 — ① MedQA(미국 의사 면허시험 객관식), ② HealthBench(의사 기준 정렬도), 그리고 가장 중요한 ③ RCQ(실제 진료 중 의사들이 던진 진짜 질문). 그리고 모든 무대에서 같은 일이 벌어졌다. 아래 리더보드를 직접 눌러 보자 — 벤치마크를 바꿔도 1~3위는 늘 범용 LLM이다.

세 평가의 최종 1위를 한 줄로 정리하면 이렇다.

평가 무대무엇을 재나1위전문 의료 AI 순위
MedQA (n=500)의학 지식 (USMLE 객관식)Gemini 3.1 Pro — 97.4%OpenEvidence 89.6% · UpToDate 88.4% → 4·5위
HealthBench (n=500)의사 기준 정렬·완성도GPT-5.2 — 88.0점OpenEvidence 62.6 · UpToDate 61.3 → 최하위권
RCQ (n=100, 실전)실제 임상 질문 종합 (1~4점)Gemini 3.1 Pro — 3.62점OpenEvidence 3.24 · UpToDate 3.17 → 검색 AI와 동급

특히 마지막 줄이 뼈아프다. 전문 의료 AI들은 — 구글 검색에 그냥 딸려 나오는 Google AI Overview(RCQ 3.27점)와 사실상 같은 하위 그룹이었다. 수백억 원짜리 ‘전문 도구’가, 검색창 위에 공짜로 뜨는 요약과 비슷한 점수를 받은 것이다.

통계적으로도 단단하다. RCQ 6개 모델은 두 개의 명확한 계층(tier)으로 갈렸다(Friedman 검정 P < 10⁻¹⁷). 위층은 범용 LLM 3종, 아래층은 전문 AI 2종 + 구글 AI. 채점자의 후함을 보정해도 전문 AI들은 Gemini보다 높은 점수를 받을 확률이 49~87% 낮았다(오즈비 0.13~0.51).

이게 왜 ‘충격’인지 이해하려면, 우리가 왜 그토록 ‘전문 의료 AI가 더 낫다’고 믿어 왔는지부터 거슬러 올라가야 한다.


2장. 왜 우리는 ‘전문 AI’를 믿었나 — 의료 AI 50년사

‘전문화하면 더 낫다’는 믿음은 하루아침에 생긴 게 아니다. 반세기 동안 의료 AI가 걸어온 길 자체가 그 믿음의 역사다. 아래 타임라인을 눌러 가며 따라가 보자.

의료 AI의 역사 4컷 웹툰 — 1976 MYCIN, 2011 IBM Watson, 2023 Med-PaLM, 2026 범용 LLM 의사

① 1970년대 — MYCIN: 지식을 ‘손으로’ 박아 넣다

의료 AI의 시조새는 1976년 스탠퍼드의 MYCIN이다. 혈액 감염을 진단하고 항생제를 추천하는 시스템이었는데, 작동 방식이 지금 보면 귀엽다 — 의사들이 직접 600여 개의 IF-THEN 규칙을 손으로 입력했다. "만약 열이 38.5도 이상이고 백혈구가 …하면, 항생제 X를 고려하라." 실제로 전문의보다 처방을 잘한 적도 있었다.

여기서 ‘전문화’의 원형이 태어났다. 전문 지식을 시스템에 직접 새겨 넣으면 똑똑해진다. 동시에 한계의 원형도 같이 태어났다 — 새 의학 지식이 나올 때마다 사람이 규칙을 손으로 갱신해야 했고, 그 비용은 감당이 안 됐다.

② 2011년 — IBM Watson: 가장 화려했던 실패

두 번째 장면은 더 극적이다. 2011년, IBM Watson이 미국 퀴즈쇼 ‘제퍼디!’에서 인간 챔피언을 꺾었다. IBM은 곧장 선언했다 — "이제 암을 정복하겠다." ‘Watson for Oncology’를 만들어 세계 최고 암센터 MD앤더슨에 투입했다.

결과는? "안전하지 않은 치료를 추천한다"는 평가 속에 MD앤더슨 프로젝트는 중단됐고, 2022년 IBM은 Watson Health 사업을 헐값에 매각했다. 의료 전용으로 거대하게 만들면 이긴다는 믿음의, 가장 비싼 좌절이었다.

교훈 하나가 여기서 박혔다. 데모(시연)와 실전은 완전히 다르다. 퀴즈쇼에서 이기는 것과 병원에서 안전하게 쓰이는 것은 별개의 문제다 — 이 교훈은 이번 2026년 논문의 핵심 설계 철학으로 다시 등장한다.

③ 2022~23년 — Med-PaLM: 언어모델, 의사 시험에 합격하다

판이 바뀐 건 대규모 언어모델(LLM)의 등장이었다. 구글의 Med-PaLM은 범용 언어모델을 의료 데이터로 미세조정(fine-tuning)해, 처음으로 미국 의사 면허시험(USMLE) 스타일 문제에서 합격선(60%)을 넘었다. 후속작 Med-PaLM 2는 85%까지 돌파했다.

전문화의 무게중심이 ‘손으로 짠 규칙’에서 ‘데이터로 학습한 모델’로 이동한 순간이다. 그리고 자연스럽게 다음 발상이 따라왔다 — "범용 모델을 의료로 특화하면, 범용보다 당연히 낫겠지."

④ 2024~25년 — 임상 RAG 도구의 폭발: OpenEvidence와 UpToDate

그 발상의 상업적 정점이 이번 논문의 주인공인 두 도구다.

  • OpenEvidence — 검증된 의사에게 무료(광고 기반). 의사용 앱 사상 가장 빠른 성장으로 35억 달러(약 5조 원) 가치를 기록했다.
  • UpToDate Expert AI — 의학 레퍼런스의 대명사 UpToDate가 내놓은 AI. 개인 구독 연 ~$699.

두 도구의 약속은 똑같았다. "범용 모델은 못 믿어도, 검증된 의학 문헌을 실시간으로 검색해 결합(RAG)한 우리 전문 도구는 믿을 수 있다." 출처가 붙어 있고, 의료 전용으로 다듬었으니까. 논리는 완벽해 보였다.

그런데 — 정말 그럴까? 놀랍게도, 이 ‘당연한 가정’은 독립적으로 검증된 적이 한 번도 없었다. 논문의 첫 문장이 정확히 이 지점을 찌른다.

⚠️
"전문 임상 AI 도구들이 독립적 검증이 거의 없는 채로 의료 현장에 들어오고 있다." — 회사가 스스로 만든 벤치마크에서 스스로 좋다고 발표하는 것과, 제3자실전 데이터로 검증하는 것은 전혀 다른 이야기다. 이 논문은 후자를 시도한 거의 첫 사례다.

3장. 핵심 개념 정복 — RAG는 왜 ‘독’이 될 수 있나

결과를 제대로 음미하려면 4개의 개념을 손에 쥐어야 한다. 어렵지 않다. 하나씩 가자.

개념 ①: 범용 LLM vs 전문 임상 AI

구분범용 프런티어 LLM전문 임상 AI
예시GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6OpenEvidence, UpToDate Expert AI
학습 데이터인터넷 전체 — 의학·법률·코드·일상 다 포함범용 모델 위에 의학 문헌 검색(RAG)을 얹음
설계 철학"넓고 깊게, 모든 걸 추론한다""좁고 정확하게, 의료만 판다"
접근 방식API로 직접 호출웹 브라우저 UI (API 없음)
비용토큰당 종량제 (저렴)무료(광고)~연 $699 구독

핵심 차이는 RAG의 유무다. 그러니 RAG가 뭔지 짚고 가자.

개념 ②: RAG — 그리고 ‘줄다리기’ 문제

RAG(Retrieval-Augmented Generation, 검색증강생성)는 간단히 말해 "AI에게 답하기 전에 관련 문서를 찾아서 쥐여 주는" 기법이다. AI가 환각(없는 사실을 지어냄)을 줄이고 최신 정보를 반영하게 하는, 매우 합리적인 아이디어다. 전문 의료 AI의 핵심 무기가 바로 이것이다.

그런데 — 여기에 함정이 있다. 찾아온 문서가 질문과 어긋나거나, 어설프게 끼워 넞어지면, 모델의 원래 알던 지식새로 받은 문서가 서로 줄다리기를 시작한다. 그리고 잘못된 쪽이 이기면, RAG가 오히려 답을 망친다.

RAG 줄다리기 — AI 의사의 머릿속에서 내부 지식(전구)과 산만한 검색 문서 더미가 반대 방향으로 줄을 당긴다

이 현상에는 이름까지 붙어 있다 — ClashEval(Wu et al., NeurIPS 2024). 모델의 내부 지식과 외부에서 검색된 증거 사이의 ‘줄다리기(tug-of-war)’를 정량화한 연구다. 논문 저자들은 바로 이걸 지목한다.

!
문제 — ‘전문’의 무기가 거꾸로 작동
전문 의료 AI의 자랑인 RAG가, 관련 없는 문헌을 잘못 가져오거나 어설프게 통합하면 오히려 성능을 떨어뜨릴 수 있다.
대조 — 범용 LLM의 ‘맨몸’ 지식
최신 프런티어 LLM은 방대한 학습 데이터로 이미 의학 대부분을 알고, 검색에 휘둘리지 않고 자기 추론으로 답한다.
결과 — 만능이 전문을 앞선다
규모·정렬·범용 추론의 힘이, 좁게 튜닝한 전문성보다 컸다. 적어도 이번 평가의 대부분 과제에서는.

개념 ③: 벤치마크 3총사 — MedQA·HealthBench, 그리고 ‘진짜’ RCQ

AI의 의료 실력을 잰다는 건 생각보다 까다롭다. 이 논문이 세 개를 함께 쓴 이유가 있다.

벤치마크정체측정하는 것약점
MedQA미국 의사 면허시험(USMLE) 스타일 객관식 500문항순수 의학 지식데이터 오염 — 정답이 학습 데이터에 새어 들어갔을 수 있음
HealthBenchOpenAI가 만든 의료 대화 평가 500개의사 기준과의 정렬·완성도제작자 편향 — OpenAI가 만들었고, OpenAI의 GPT가 1등
RCQNYU 병원 실제 진료 중 의사들이 던진 진짜 질문 100개실전 임상 유용성오염 없음 · 현실 그 자체 — 이 논문의 핵심 증거

앞의 두 개는 시험 문제다. 빠르고 표준화돼 있지만, 정답이 어디선가 새어 들어갔을 위험(데이터 오염)이나 만든 사람에게 유리한 편향이 있다. 그래서 저자들이 직접 만든 게 세 번째, RCQ(Real Clinical Queries)다 — 시험장이 아니라 병동에서 길어 올린 질문들. 2장의 MD앤더슨 교훈("데모≠실전")이 여기서 설계로 부활한다.

개념 ④: 누가 채점하나 — LLM 심판과 ‘맹검’ 의사단

  • MedQA·HealthBenchLLM-as-judge로 채점했다. 단일 모델의 편애를 막으려고 GPT-5.2·Gemini 3.1 Pro·Claude Opus 4.6 세 모델을 심판단으로 세워 합의 점수를 냈다.
  • RCQ는 사람이 채점했다. 12명의 미국 임상의가, 어느 답이 어느 AI 것인지 모르는 채(맹검) 한 응답당 3명씩 채점했다 — 총 1,800건의 채점. 이게 이 논문이 ‘설문’이 아니라 ‘증거’인 이유다.

4장. 실험 설계 — 3단계 평가 아레나

이제 무대 전체를 조감해 보자. 연구진은 6개의 AI를 동일한 조건에 세웠다.

3단계 평가 아레나 — MedQA 시험장, HealthBench 정렬 무대, RCQ 실전 병동, 그리고 눈을 가린 12명의 의사 심판

① MedQA
500문항 · 의학 지식
② HealthBench
500개 · 의사 정렬
③ RCQ
100개 실전 질문 · 의사 맹검

RCQ 채점은 4개 축으로 이뤄졌고, 각 축을 1~4점으로 매겼다. 이 4축이 결과 해석의 열쇠다.

축 1 · 임상 정확성
사실이 맞는가, 중대한 오류는 없는가
축 2 · 안전성
위험 신호(red flag)를 놓치지 않는가, 해롭지 않은가
축 3 · 완성도
꼭 들어가야 할 핵심을 다 담았는가
축 4 · 명료성
의사가 읽고 바로 쓸 수 있게 정리됐는가

공정성을 위한 디테일: 모든 모델은 온도 0.0(deterministic), 검색 기능 켠 상태로 동일하게 호출됐고, 답변 길이나 형식을 인위적으로 맞추지 않았다(형식 자체가 그 도구의 임상적 특성이라 봤기 때문). RCQ 질문은 NYU Langone의 HIPAA 준수 GPT 인스턴스에서 비식별화해 추출했다. 연구는 NYU Langone IRB 승인(i23-00510)을 받았다.


5장. 결과 정밀 해부 — 무엇이, 왜 갈렸나

5-1. MedQA — 지식에서도 범용이 앞선다

순수 의학 지식 시험. ‘전문 도구가 그래도 지식은 낫겠지’라는 기대가 가장 클 무대였다. 결과는 정반대였다.

MedQA 정확도 (%, n=500)
Gemini 3.1 Pro
97.4%
1위
GPT-5.2
94.2%
2위
Claude Opus 4.6
90.2%
3위
OpenEvidence (전문)
89.6%
4위
UpToDate Expert AI (전문)
88.4%
5위

범용 3종이 1·2·3위를 싹쓸이했다. Gemini는 다른 모든 모델을 통계적으로 유의하게 앞섰고(McNemar P < 10⁻⁴), GPT 역시 두 전문 도구를 모두 눌렀다(vs OpenEvidence P=0.008, vs UpToDate P=0.0004).

5-2. HealthBench — 격차가 더 벌어지다

의사 기준 정렬·완성도를 보는 무대에선 격차가 더 커졌다. 1위 GPT(88.0)와 전문 도구(62.6, 61.3) 사이엔 25점 이상의 간극이 벌어졌다.

HealthBench 점수 (0~100, n=500)
GPT-5.2
88.0
1위
Gemini 3.1 Pro
79.3
2위
Claude Opus 4.6
77.0
3위
OpenEvidence (전문)
62.6
4위
UpToDate Expert AI (전문)
61.3
5위

단, 여기엔 공정한 단서를 달아야 한다. HealthBench는 OpenAI가 만든 벤치마크이고, 1위가 OpenAI의 GPT다 — 제작자 편향 가능성을 배제할 수 없다. 그래서 저자들 스스로 "HealthBench는 보조 증거로만 해석하고, 진짜 핵심 증거는 RCQ"라고 못 박는다. 정직한 태도다.

5-3. RCQ — 진짜 무대, 그래도 결론은 같다

그리고 오염도, 제작자 편향도 없는 실전 무대. 12명의 의사가 맹검으로 채점한 종합 점수(1~4점)는 — 다시 한 번 두 계층으로 갈렸다.

RCQ 종합 점수 (1~4점, 거절 제외 후 n=568)
Gemini 3.1 Pro
3.62
상위 계층
GPT-5.2
3.54
상위 계층
Claude Opus 4.6
3.52
상위 계층
Google AI Overview (검색)
3.27
하위 계층
OpenEvidence (전문)
3.24
하위 계층
UpToDate Expert AI (전문)
3.17
하위 계층

막대 길이는 차이를 보이기 위해 만점(4점) 기준으로 그렸다. 0.5점 차이지만, 1~4점 척도에서 이는 큰 격차다.

5-4. 가장 흥미로운 발견 — 전문 AI의 약점은 ‘지식’이 아니라 ‘소통’

RCQ를 4개 축으로 쪼개 보면 진짜 이야기가 나온다. 모델 간 차이가 가장 큰 축은 ‘명료성’(Kendall’s W=0.292)이었고, 가장 작은 축은 ‘임상 정확성’(W=0.141)이었다.

이게 무슨 뜻일까? 전문 의료 AI가 ‘틀려서’ 진 게 아니라, ‘제대로 전달하지 못해서’ 졌다는 뜻이다. 특히 OpenEvidence는 명료성에서 최저점(평균 2.84)을 받았다. 지식은 어느 정도 있는데, 답이 산만하고, 핵심을 빠뜨리고, 읽기 어려웠다.

💡
저자들의 표현: 전문 AI의 응답에서 "불완전한 임상 내용, 안전상 중요한 누락, 정리 안 된 답변"이 흔했다 — 특히 OpenEvidence와 Google AI Overview에서. 의학을 ‘몰라서’가 아니라, ‘소통’에서 진 것이다.

이 진단은 오류 분류표(Extended Data Table 1)가 뒷받침한다. 낮은 점수를 받은 응답의 오류 유형을 세어 보니, OpenEvidence가 압도적으로 많았다.

모델불완전한 내용정리 안 됨/난해안전상 누락오류 노트 합계
Gemini 3.1 Pro4028 (최소)
Claude Opus 4.653419
GPT-5.281421
UpToDate (전문)81320
Google AI Overview150833
OpenEvidence (전문)15131252 (최다)

5-5. 거절·안전·환각 — 그리고 비용

몇 가지 결정적인 곁가지가 더 있다.

  • 거절률: UpToDate Expert AI는 질문의 19%를 "답할 수 없다"며 거절했다. 다른 모델은 1~3%, 구글 AI도 6%였다. 도구가 아무리 정확해도, 5문제 중 1문제에 입을 다물면 실전에선 쓸모가 반감된다. (프롤로그의 레지던트 J가 겪은 게 바로 이것이다.)
  • 안전·환각: 다행히 해로운 답이나 환각 비율에서는 모델 간 유의한 차이가 없었다(각각 Cochran Q P=0.55, 0.42). 즉 전문 AI가 더 안전한 것도 아니었다.
  • 비용: 결정타. 범용 LLM은 토큰당 종량제(예: GPT-5.2 입력 100만 토큰당 $1.75), 전문 도구는 연 $699 구독(UpToDate)이거나 광고 기반(OpenEvidence)이다. 더 비싸거나 비슷한데, 성능은 더 낮았다.
시스템유형접근비용 (2026.4 기준)
GPT-5.2범용 LLMAPI$1.75 / $14.00 per 1M 토큰(입/출력)
Gemini 3.1 Pro범용 LLMAPI$2.00 / $12.00 per 1M 토큰
Claude Opus 4.6범용 LLMAPI$5.00 / $25.00 per 1M 토큰
OpenEvidence전문 의료 AI브라우저검증 의사 무료 (광고 기반)
UpToDate Expert AI전문 의료 AI브라우저연 ~$699 (개인 Pro Plus)
Google AI Overview검색 내장브라우저무료 (구글 검색 내장)

6장. 왜 만능 선수가 이겼나 — 메커니즘

데이터는 분명하다. 그런데 ? 저자들은 몇 가지 설명을 제시한다.

결과 시상식 — 범용 AI들이 금메달 단상에, 전문 의료 AI들이 은·동 단상에서 놀란 표정으로 서 있다

범용 LLM이 앞선 4가지 이유
① 규모(Scale)
프런티어 LLM은 압도적으로 큰 학습 데이터로 의학 지식 대부분을 이미 내장한다. ‘맨몸 지식’ 자체가 더 깊다.
② 정렬(Alignment)
사람이 읽기 좋게, 핵심을 짚어, 안전하게 답하도록 정교하게 정렬돼 있다. 전문 AI가 진 ‘명료성’이 바로 이 영역.
③ 범용 추론
의료 질문도 결국 추론 문제다. 여러 분야를 가로지르는 추론력이 좁은 전문 튜닝을 능가했다.
④ RAG의 역설
전문 AI의 무기인 검색증강이, 어설프게 통합되면 오히려 방해(3장의 줄다리기). 안 쓰느니만 못한 경우가 생긴다.

한 문장으로: 규모·정렬·범용 추론의 합이, ‘의료 전용 튜닝’이라는 단일 강점보다 컸다. 게다가 프런티어 LLM은 개발 사이클이 빠르고 투자가 막대해서, 그 격차가 점점 더 벌어지는 중이다.

단, 저자들은 신중하다. "규모의 수익이 둔화된다면, 도메인 특화 튜닝의 상대적 가치는 다시 커질 수 있다." 그리고 "아주 깊은 세부 전문 분야는 여전히 정교한 도메인 적응이 유리할 수 있다." 즉 이건 ‘전문화는 영원히 무의미하다’가 아니라 — ‘지금 이 순간의 스냅샷’이다. 빠르게 진화하는 풍경의 한 장면.


7장. 함정 주의 — 이 논문이 말하지 않는

좋은 글은 결과를 과장하지 않는다. 이 논문의 한계를 정직하게 짚어야 결론을 올바로 쓸 수 있다.

한계무슨 뜻인가
전문 도구는 API가 없다브라우저로 일일이 수동 질의 → 표본이 작고(100개), 숨은 프롬프트·검색 동작 차이가 끼어들 수 있다.
시험 벤치마크의 오염MedQA·HealthBench는 정답이 학습 데이터에 새어 들어갔을 수 있다. RCQ만 오염에서 자유롭다.
제작자 편향HealthBench는 OpenAI 작품 → GPT 1위. 그래서 RCQ를 핵심 증거로 삼아야 한다.
측정 안 한 것들응답 속도·지연·워크플로우 통합·비용-품질 균형은 평가하지 않았다. 실제 도입엔 이것들도 중요하다.
이건 텍스트 임상 추론 이야기영상 판독(루닛·뷰노 같은)이나 깊은 세부 전문 과제는 전혀 다른 범주 — 이 결과를 함부로 확장하면 안 된다.

특히 마지막 줄이 한국 독자에게 중요하다. 이 논문은 ‘텍스트로 묻고 답하는 임상 추론’을 다룬다. 흉부 X선·CT를 판독하는 의료 영상 AI(루닛·뷰노·제이엘케이 등)는 완전히 다른 종목이다. "범용 LLM이 모든 의료 AI를 이겼다"가 아니라, "텍스트 임상 질문 응답에서, 텍스트 전문 RAG 도구가 범용 LLM에 졌다"가 정확한 독해다.


8장. 2026년, 이 논문이 던지는 진짜 질문

그래서 이 한 편의 ‘Brief Communication’이 왜 중요한가? 숫자 너머에, 산업 전체를 흔드는 질문이 있다.

2026년 병원 구매 결정 — 비싼 전문 AI 서버와 저렴한 범용 AI 칩을 저울에 올린 병원장, 뒤에서 ‘독립적 실전 검증’을 가리키는 규제 당국

$
구매(Procurement) — 병원은 무엇에 돈을 쓰나
"전문 도구니까 비싸도 당연히 낫겠지"라는 가정으로 연 수억 원을 쓰던 병원들이, 이제 증거를 요구하게 된다. 더 싼 범용 API가 더 나을 수 있다면?
§
규제·보험수가(Reimbursement) — 무엇을 승인하고 보상하나
규제기관과 보험자가 어떤 근거로 임상 AI를 승인·보상할 것인가. ‘회사 자체 벤치마크’는 더 이상 충분치 않다는 신호.
검증(Evaluation) — 핵심 메시지
논문의 마지막 문장: AI 도구가 임상에 들어오기 전, 독립적이고 실전적인 검증이 반드시 필요하다. 만든 사람이 아니라 제3자가, 진짜 데이터로.

흥미로운 한국 연결고리도 있다. 이 연구는 대한민국 과학기술정보통신부(MSIT)·IITP의 지원(KAIST AI대학원 프로그램 포함)을 일부 받아 수행됐다. 글로벌 의료 AI 검증의 최전선에 한국의 연구 투자가 새겨져 있는 셈이다.

코어닷의 관점. 이 논문의 진짜 교훈은 "범용이 전문을 이겼다"는 승패가 아니다. 그건 오늘의 스냅샷일 뿐, 내일 또 바뀔 수 있다. 변하지 않는 교훈은 따로 있다 —

① 마케팅이 아니라 측정. ‘의료 전용’이라는 라벨이 성능을 보장하지 않는다. 독립적·실전적 검증만이 진실을 말한다. ② RAG는 만능이 아니다. 검색을 붙인다고 무조건 똑똑해지지 않는다. 어떻게 통합하느냐가 전부다 (3장의 줄다리기). ③ AI 도입의 본질은 ‘소통’. 전문 AI는 지식이 아니라 명료성에서 졌다. 의료든 법률이든 회계든, AI를 현장에 쓸 때 결국 갈리는 건 얼마나 똑똑한가보다 얼마나 잘 전달하는가다.


프롤로그의 레지던트 J로 돌아가 보자. 새벽 2시, 그가 범용 챗봇에서 더 나은 답을 얻고 멈칫했던 그 순간 — 그건 한 사람의 변칙이 아니라, 데이터로 증명된 2026년의 현실이었다. 60년간 당연하게 믿어 온 ‘전문화의 우위’는, 적어도 텍스트 임상 추론이라는 무대에서는 반드시 다시 검증받아야 할 가설이 됐다.

그리고 그 검증의 칼자루는 — AI를 파는 회사가 아니라, AI를 쓰는 우리 손에 있어야 한다.


참고 자료

  • 원논문: Vishwanath, K., Alyakin, A., Ghosh, M., … Alber, D. A. & Oermann, E. K. General-purpose large language models outperform specialized clinical AI tools on medical benchmarks. Nature Medicine (2026). doi.org/10.1038/s41591-026-04431-5
  • 코드·데이터: github.com/nyuolab/clinical-llm-benchmarks · MedQA·HealthBench는 HuggingFace 공개
  • ClashEval (RAG 줄다리기): Wu, K., Wu, E. & Zou, J. ClashEval: quantifying the tug-of-war between an LLM’s internal prior and external evidence. NeurIPS 37 (2024).
  • 소속: NYU Langone Health · The University of Texas at Austin · NYU Grossman School of Medicine. 일부 지원: 대한민국 MSIT/IITP (KAIST AI대학원 프로그램).

본 글은 코어닷투데이 의료 AI 시리즈의 연장으로, 공개된 Nature Medicine 논문(CC BY-NC-ND 4.0)과 그 부속 데이터를 바탕으로 작성했다. 인용된 수치·도표는 모두 원논문에서 가져왔다.