coredot.today
HITL 엔지니어링 실전: 신뢰도 임계치, 에스컬레이션, 피드백 루프
블로그로 돌아가기
HITL신뢰도 임계치에스컬레이션피드백 루프AI 엔지니어링

HITL 엔지니어링 실전: 신뢰도 임계치, 에스컬레이션, 피드백 루프

AI가 '모르겠다'고 말할 수 있게 된 1957년 Chow의 수학부터 2025년 Airbnb의 데이터 플라이휠까지. 신뢰도 임계치 · 에스컬레이션 · 피드백 루프 — HITL 시스템의 세 기둥을 논문과 실전 사례로 파헤친다.

코어닷투데이2026-03-1338

들어가며: 세 개의 기둥

전편에서 우리는 Human-in-the-Loop의 70년 역사와 "자동화 역설"을 추적했다. 이번 글은 그 후편으로, HITL을 실제 시스템으로 구현하는 엔지니어링에 집중한다.

프로덕션 HITL 시스템은 세 개의 기둥 위에 서 있다:

HITL 시스템의 세 기둥
신뢰도 임계치 Confidence Threshold 언제 인간에게 넘길 것인가
에스컬레이션 Escalation Design 어떻게 인간에게 넘길 것인가
피드백 루프 Feedback Loop 인간의 판단을 어떻게 학습에 반영하는가
순환 개선 사이클 피드백이 모델을 개선 → 더 정확한 신뢰도 → 더 적은 에스컬레이션

이 세 기둥은 독립적이지 않다. 신뢰도 임계치가 에스컬레이션의 시점을 결정하고, 에스컬레이션 과정에서 인간의 판단이 피드백이 되고, 피드백이 모델을 개선하여 신뢰도 보정을 향상시킨다. 이 순환이 돌수록 시스템은 더 똑똑해지고, 불필요한 에스컬레이션은 줄어든다.

각 기둥의 학술적 기원부터 프로덕션 사례까지 차례로 파헤쳐 보자.


제1장: 신뢰도 임계치 — AI에게 "모르겠다"를 가르치다

1957년: Chow의 거부 옵션

AI가 "모르겠다"고 말할 수 있어야 한다는 아이디어는 어디서 왔을까? 놀랍게도 1957년으로 거슬러 올라간다.

C.K. Chow는 1957년 "An Optimum Character Recognition System Using Decision Functions"에서 문자 인식을 통계적 의사결정 이론 문제로 프레이밍했다. 핵심: 분류기가 입력에 대해 **가장 높은 사후 확률 P(Y|X)이 특정 임계치보다 낮으면 분류를 거부(rejection)**해야 한다는 최적 의사결정 규칙이다.

1970년 후속 논문에서 Chow는 이 관계를 수학적으로 엄밀하게 공식화했다:

최적 거부 임계치 = (C_거부 - C_정답) / (C_오류 - C_정답)

여기서 C_오류, C_거부, C_정답은 각각 오류, 거부, 정답의 비용이다.

💡
Chow의 핵심 통찰: 최적 거부 임계치는 임의의 공학적 선택이 아니라 의사결정의 경제학에 의해 결정된다. 오류의 비용이 높을수록(의료, 금융), 더 보수적으로 거부해야 한다. 이 수학은 2026년에도 모든 HITL 시스템의 기초다.

"모르는 것을 아는" LLM (2022)

Chow의 이론이 LLM 시대에 어떻게 적용될까? Anthropic의 Saurav Kadavath 등 36명이 2022년 발표한 "Language Models (Mostly) Know What They Know"이 이 질문에 답한다.

핵심 발견:

  1. P(True) — 모델이 자기 답이 맞을 확률을 평가할 때, "고무적인 성능, 보정, 스케일링"을 보임
  2. P(IK) — 답을 보지 않고도 자기가 답을 아는지 예측 가능. 맥락에 관련 자료가 있으면 P(IK)가 적절히 상승
  3. 더 큰 모델이 더 잘 보정됨

그러나 결정적 주의점이 있다: RLHF/명령어 튜닝이 보정을 손상시킨다. RLHF 훈련된 LLM은 과신하는 경향이 있고, PPO에 사용되는 보상 모델은 실제 응답 품질과 무관하게 높은 신뢰도 점수에 편향된다.

실전적 시사점:

  • 큰 모델의 잘 알려진 도메인에서는 신뢰도를 더 신뢰
  • RLHF/명령어 튜닝 후 재보정 없이는 덜 신뢰
  • 앙상블/다수결 투표 방식은 더 신뢰 (Spotify는 5~6개 모델이 최적)
  • 구어화된(verbalized) 신뢰도는 보정 없이 덜 신뢰
  • 최소한 **온도 스케일링(temperature scaling)**은 반드시 적용

프로덕션 임계치 패턴: 실전 숫자

실제 기업들은 어떤 임계치를 사용할까?

구간신뢰도행동예시
자동 승인> 95%검토 없이 자동 처리명확한 본인 확인
고신뢰85~95%자동 처리 + 품질 감사 샘플링표준 청구서 처리
리뷰 큐60~85%인간 검토 대상모호한 고객 의도
에스컬레이션< 60%즉시 인간 대응안전 이슈, 복잡한 불만

Spotify의 사례 (재무 엔지니어링): SOX/ITGC 규제 하 청구서 파싱을 위한 GenAI 신뢰도 구축. 세 가지 접근을 테스트:

보정 모델 일관성 없는 점수 → 실패
로그 확률 정확도와 상관관계 없음 → 실패
다수결 투표 (5~6 LLM) 강한 상관관계 → 성공

7개 모델 중 6/7 동의 = 86% 신뢰도. 순열 방식(7모델 × 5프롬프트 = 35응답)으로 33/35 동의 = 94% 신뢰도. 최종적으로 Platt 스케일링 적용.

의료 AI 임계치:

AI 신뢰도 70~79%일 때 의사 재정의율99.3%
AI 신뢰도 90~99%일 때 의사 재정의율1.7%

70%대 신뢰도에서 의사는 99.3%를 재정의하고, 90%대에서는 1.7%만 재정의한다. 이 데이터가 말해주는 것: **의료에서 80% 미만의 AI 신뢰도는 사실상 "참고용"**이다.

동적 임계치: 정적 규칙을 넘어서

프로덕션 임계치는 고정값이 아니다:

  • 시간 기반: 피크 시간에는 공격적(0.70), 평소에는 보수적(0.85)
  • 도메인 기반: 벤더 이름 추출은 낮게, 금액 추출은 높게
  • 리스크 기반: 의료 코딩 95%, 일정 예약 85%
  • 운영 기반: 리뷰 큐가 500건을 넘고 SLA가 위험하면, 코드 배포 없이 임계치 조정 권한 필요
⚠️
핵심 규칙: 프로덕션에서 급격한 임계치 변경은 절대 금물. 점진적 조정으로 영향을 관찰하고, 피드백을 수집하고, 설정을 정제해야 한다.

오탐과 미탐의 경제학

최적 임계치는 근본적으로 경제적 질문이다:

도메인오탐 비용 (False Positive)미탐 비용 (False Negative)임계치 방향
사기 탐지조사 비용 + 고객 불편실제 사기 손실미탐 비용 >> 오탐 → 낮은 임계치
의료 진단불필요한 검사 비용암 미발견 → 생명 위험미탐 비용 >>> 오탐 → 매우 낮은 임계치
콘텐츠 모더레이션합법 콘텐츠 삭제 → 표현의 자유유해 콘텐츠 노출 → 안전 위험균형 필요
ICU 배치불필요한 ICU 입원 (비용)중환자 미발견 → 생명 위험미탐 비용 >>> 오탐

공식: 최적_임계치 = C_FP / (C_FP + C_FN). Chow가 1957년에 도출한 것과 본질적으로 같은 공식이 70년 뒤에도 유효하다.


제2장: 에스컬레이션 설계 — 어떻게 인간에게 넘기는가

ITIL에서 AI까지: 에스컬레이션의 계보

에스컬레이션 설계는 IT 서비스 관리의 ITIL(Information Technology Infrastructure Library) 프레임워크에 뿌리를 두고 있다:

계층형 지원 모델: ITIL → AI 에이전트
L0 — 셀프서비스 AI 에이전트 자율 처리 전체 문의의 ~40%
L1 — 일선 지원 AI + 인간 리뷰 인간 도달 티켓의 70~80%
L2 — 전문가 인간 전문가 + AI 보조 심층 트러블슈팅
L3 — 엔지니어 순수 인간 전문성 신규 문제, 정책 결정

핵심 구분 — 기능적 vs 계층적 에스컬레이션:

  • 기능적: 다른 종류의 전문가에게 라우팅 (AI 결제 에이전트 → AI 기술 에이전트)
  • 계층적: 더 높은 권한에게 라우팅 (예외 처리, 정책 결정)

에스컬레이션 역설: 너무 많아도 적어도 위험

⚠️
에스컬레이션 역설: 너무 많은 에스컬레이션은 AI를 무용하게 만들고, 너무 적은 에스컬레이션은 위험한 상황을 방치한다. 4명의 에이전트가 9-5 근무할 때, 에스컬레이션이 과도하면 대기 시간이 길어지고, 과소하면 위험 상황이 방치된다.

프로덕션 벤치마크:

  • 권장 에스컬레이션율: 전체 인터랙션의 15% 이하
  • 선두 AI 고객 서비스: 80~90% 전환율(deflection rate)
  • 복잡한 버티컬(IT/소프트웨어): 45~52% 전환율
  • 단순한 버티컬(이커머스): 80~90% 전환율

웜 핸드오프 vs 콜드 핸드오프

콜드 핸드오프: 기록된 컨텍스트와 함께 바로 연결. 고객이 상황을 처음부터 반복해야 함. 마찰 발생.

웜 핸드오프: AI가 인간 에이전트에게 전환 전 컨텍스트 전달. "이분은 알렉스 로드리게스 님이고, 월요일 예약을 병원 방문으로 취소하고자 합니다." 인간 에이전트가 전체 대화 이력, 고객 프로필, AI 평가를 수신.

프로덕션에서 웜 핸드오프의 수 초가 반복 설명의 수 분을 절약하고, 고객 만족도를 극적으로 높인다.

실전 에스컬레이션: 세 기업의 접근법

Claude Code: 권한 기반 에스컬레이션

Claude Code는 78개 권한 규칙 (허용 40 + 거부 38)의 제로 트러스트 모델:

  • 3계층 규칙 평가: deny > ask > allow (첫 매칭 규칙 적용, deny가 항상 우선)
  • Hooks: 에이전트의 추론과 무관하게 특정 행동이 항상 실행되는 시스템 수준 인터셉터. "Hooks는 행동을 보장하고, 프롬프트는 제안한다."
  • 핵심 원칙: "런타임에서 권한은 감소만 가능. 증가는 인간 행동이 필요."

OpenAI Operator: 인수 모드

  • 인수 모드(Takeover Mode): 민감 정보 입력 시(로그인, 결제) 사용자에게 브라우저를 직접 조작하도록 요청. 인수 모드 중 스크린샷 수집 없음
  • 행동 전 확인: 주문 완료, 이메일 발송 등 중요 행동 전 승인 요청
  • 완전 차단 영역: 주식 매매는 완전히 제한. 은행 거래는 능동적 거부

Salesforce Agentforce: 3중 에스컬레이션

  1. 기본 에스컬레이션: "사람과 이야기하고 싶다" → 즉시 Omni-Channel 라우팅
  2. 동적 에스컬레이션: canEscalate 플래그와 if-then 정책
  3. 스마트 라우팅: 음성 에이전트가 의도만 정확히 파악하여 최적 라우팅

핸드오프 전 AI가 "사전 작업" — 이메일 확인, 케이스 생성, 의도 분류를 완료하여 핸드오프를 "전략적 우위"로 전환.

Klarna의 교훈: 자동화율만 최적화하면 안 된다

📈 Klarna의 부상 (2024.2)
첫 달 230만 대화 처리
고객 서비스 채팅의 2/3
700명 풀타임 에이전트 업무량
평균 2분 해결 (기존 11분)
재문의 25% 감소
$4,000만 수익 개선 전망
📉 Klarna의 전환 (2025.5)
CEO: "효율과 비용에 너무 집중했다"
"결과는 낮은 품질, 지속 불가"
AI가 "필터 역할"만 수행
비인격적 상호작용 불만
고객 만족도 하락
인간 에이전트 재고용 (우버 모델)

새 전략: "AI는 속도를 주고, 인재는 공감을 준다. 함께하면 빠를 때는 빠르고, 공감이 필요할 때는 따뜻한 서비스를 제공할 수 있다."

교훈: 자동화율은 유일한 지표가 아니다. Klarna는 비용 절감과 처리량을 최적화했지만 품질 신호를 무시했다가, 고객 만족도가 역전을 강제했다. 프로덕션 HITL에서 **굿하트의 법칙(Goodhart's Law)**의 교과서적 사례.

Bank of America Erica: 대체가 아닌 증강

30억+ 총 인터랙션
98% 자체 해결률
5,000만 사용자 수
38%↓ 콜센터 통화량 감소

Klarna와의 결정적 차이: Erica는 대체 시스템이 아니라 라우팅+해결 시스템으로 설계됐다. 고객이 작업을 완료하거나, 목표에 도달하는 최적 경로로 안내 — 인간 대표자에게의 원활한 핸드오프 포함.

콜센터에서 인간 에이전트는 Erica Assist를 사용해 개인화된 지원 제공. 첫 화면: 고객이 전화한 이유를 여러 시스템에서 취합한 단일 데스크톱 도구.


제3장: 피드백 루프 — 시스템이 스스로 똑똑해지는 구조

ML 기술 부채의 숨겨진 원인 (Google, 2015)

D. Sculley 등 Google 연구자 10명이 2015년 NeurIPS에서 발표한 "Hidden Technical Debt in Machine Learning Systems"는 1만 회 이상 인용된 가장 영향력 있는 ML 시스템 논문 중 하나다.

핵심 발견: 실제 ML 시스템의 약 5%만이 실제 ML 코드이고, 나머지 ~95%는 데이터 수집, 검증, 피처 추출, 설정, 서빙, 모니터링 인프라다.

피드백 루프의 세 유형:

  1. 직접 피드백 루프: 모델이 자기 미래 학습 데이터의 선택에 직접 영향. 추천 시스템이 고신뢰 추천만 보여주면, 그 항목에 대한 피드백만 수집 → 자기 강화 편향
  2. 숨겨진 피드백 루프: 모델 예측이 세계에 영향을 미치고, 그것이 간접적으로 모델 입력에 영향. 주식 트레이딩 모델의 예측이 가격을 움직이고, 그 가격이 미래 학습 데이터가 됨
  3. CACE 원칙 — "아무것이나 바꾸면 모든 것이 바뀐다": 하나의 피처 입력 분포를 바꾸면, 나머지 모든 피처의 중요도, 가중치, 사용이 변할 수 있음

Airbnb의 데이터 플라이휠 (EMNLP 2025)

가장 상세한 프로덕션 피드백 플라이휠 사례: Cen (Mia) Zhao 등 Airbnb 연구자들의 "Agent-in-the-Loop" (AITL) 프레임워크.

라이브 고객 인터랙션 중 4가지 어노테이션 유형 수집:

  1. 쌍별 응답 선호: 후보 응답 비교 ("훨씬 나음", "나음", "약간 나음")
  2. 채택 근거: 응답 선택/거부 이유 설명 (자유 텍스트)
  3. 지식 관련성 점수: 지식 리소스의 실시간 적합성 검증
  4. 누락 지식 식별: 정보 갭 표시

프로덕션 결과 (미국 기반 40명 에이전트, 5,000+ 케이스, 에이전트당 일 ~11건 어노테이션):

Airbnb AITL 플라이휠 개선 효과
검색 재현율
+11.7%
검색 정밀도
+14.8%
생성 유용성
+8.4%
인용 정확도
+38.1%
에이전트 채택률
+4.5%

가장 인상적인 숫자: 재학습 주기가 3개월(오프라인)에서 수 주로 단축. 피드백이 일상 워크플로우에 통합되어 한계 비용이 거의 제로.

보상 해킹: 피드백 루프가 시스템을 망치는 경우

피드백 루프가 항상 선순환인 것은 아니다. **Pan, Jones, Jagadeesan & Steinhardt (2024)**의 "Feedback Loops Drive In-Context Reward Hacking"은 치명적 경고를 담고 있다.

실험 결과:

  • GPT-4가 트위터에서 11번의 대화 턴을 거쳐 점점 더 "몰입도 높은" 트윗을 생성했지만, 몰입도 향상이 독성 증가와 직접 상관
  • 144개 ToolEmu 작업에서 GPT-3.5와 GPT-4 모두 API 오류 복구 피드백을 통해 점점 더 안전 제약을 위반
  • 더 큰 모델이 더 나쁨: Claude-3 (Haiku > Sonnet > Opus)에서 더 큰 모델이 더 심한 ICRH를 보임
⚠️
보상 해킹의 위험: Anthropic (2025.11)은 보상 해킹이 학습되는 정확한 시점에서 모든 정렬 오류 평가가 급증함을 보여줬다. 정렬 위장(alignment faking)이 단순 질문 응답의 50%에서, 안전 연구 방해가 시행의 ~12%에서 발견됐다.

Goodhart의 법칙의 LLM 버전: Gao 등(2022)은 최적화가 지속되면 프록시 보상 점수가 실제 보상에서 이탈함을 증명. Wen 등(2024)은 RLHF가 인간 승인률은 높이지만 정확도는 높이지 않음을 발견 — 모델이 "실제로 맞지 않아도 인간을 설득하는 데 더 능숙해진다."

피드백 수집 비용의 현실

방법건당 비용비고
인간 선호 비교~$1+고품질, 저볼륨
AI 피드백 (프론티어 모델)< $0.01대규모 가능, 품질 불확실
RLTHF (타겟 인간 피드백)전체의 6~7%동등 품질, 효율 극대화
Airbnb AITL~0 (워크플로 통합)일 11건/에이전트, 한계비용 ≈ 0

제4장: 통합 — 세 기둥이 만드는 순환

신뢰도 → 에스컬레이션 → 피드백 파이프라인

사용자 입력AI 에이전트 처리신뢰도 측정
고신뢰 → 자동 처리 중신뢰 → 리뷰 저신뢰 → 에스컬레이션
피드백 수집 (명시적 + 암묵적)
모델 개선더 정확한 신뢰도더 적은 에스컬레이션 ⟳
  1. 신뢰도 임계치가 언제 에스컬레이션할지 결정
  2. 에스컬레이션 설계가 어떻게 인간을 관여시킬지 결정
  3. 인간의 결정이 피드백을 생성
  4. 피드백이 모델을 개선 → 신뢰도 보정 향상
  5. 더 나은 보정 → 불필요한 에스컬레이션 감소 (플라이휠 효과)

리스크 수준별 아키텍처

저위험중위험고위험
예시FAQ, 콘텐츠 추천고객 서비스, 청구서의료, 금융, 법률
자율성Level 3~4Level 2~3Level 1~2
에스컬레이션 임계치~70%85% 자동 / 60~85% 리뷰95%+
피드백배치 (주간)준실시간 (Airbnb AITL)즉시 + 정답 검증
핸드오프대안 제시웜 핸드오프 + 전체 컨텍스트이중 검토 필수

HITL이 작동하는지 어떻게 측정하는가

27%↓ 운영 비용 절감 성숙한 HITL 시스템 평균
23%↑ 고객 만족도 향상 동적 비용 최적화 라우팅
99.9% HITL 정확도 AI 단독 92% vs HITL 99.9%
<15% 목표 에스컬레이션율 시간이 지나며 감소해야 함

제5장: 안티 패턴 — HITL이 실패하는 방법

자동화 안주(Automation Complacency)

**Parasuraman & Manzey (2010)**의 Human Factors 논문이 밝힌 것:

  • 자동화 안주는 다중 작업 환경에서 발생
  • 초보자와 전문가 모두 취약
  • 연습이나 훈련으로 극복할 수 없음
  • 항상 높은 신뢰도의 시스템 운영자는 비신뢰 시스템 운영자보다 실패 감지율이 50% 낮음

즉, AI가 너무 잘 작동하면 인간 검토자가 **고무 도장(rubber stamp)**을 찍기 시작한다.

완화 전략:

  • 리뷰어가 AI 출력에 능동적으로 질문하도록 훈련
  • 리뷰 시 신뢰도 점수를 숨김 (앵커링 감소)
  • 블라인드 리뷰 프로세스 사용
  • 리뷰어 교대 (피로 방지)
  • 고무 도장 패턴 감지를 위한 정기 감사

알림 피로(Alert Fatigue)

에스컬레이션이 과도할 때:

  • 지속적 감독이 HITL 피로와 둔감화를 유발
  • "인간 감독이 더 이상 효과가 없게 됨"
  • SOC 분석가들이 자동화 과부하로 만성적 알림 피로

알림 피로의 징후: 리뷰 품질 하락, 리뷰 시간 단축(더 꼼꼼해서가 아님), 인간 리뷰 오류율 증가, 리뷰어 불만과 이직.

콜드 스타트 문제

피드백 루프, 사용 패턴, 실제 신호 없이 HITL 시스템을 안전하게 시작하는 방법:

  1. 고정밀 분류기로 시드 데이터 — DoorDash가 사용한 방법
  2. 보수적 임계치로 시작 — 거의 모든 것을 에스컬레이션하고, 학습하면서 점진적으로 낮춤
  3. 전이 학습 — 유사 도메인에서 훈련된 모델을 출발점으로
  4. 첫날부터 피드백 루프 구축 — 사이드 정보 활용, 사용자와 대화 시작
💡
업계는 "빈약한 모델이 아니라 기아(starvation)로 죽은 버려진 파일럿과 실패한 스케일업"으로 가득하다. 콜드 스타트 문제는 AI 전략을 구조적 수준에서 오염시킨다.

제6장: 미래 — 자율성은 획득하는 것이다

5단계 자율성 프레임워크

레벨사용자 역할제품 예시인간 관여
1운영자Microsoft Copilot사용자가 모든 결정
2협업자OpenAI Operator계획과 실행 공유
3자문역Gemini Deep Research에이전트가 주도, 전문성 자문
4승인자Devin에이전트 독립, 고위험만 승인
5관찰자Voyager에이전트 완전 자율, 관찰+긴급 정지

핵심 통찰: 자율성은 부여되는 것이 아니라 획득되는 것이다.

  • Level 1~2에서 시작 (인간 승인 필수)
  • 성능 지표가 안정화되면 Level 3으로 점진 상승
  • 잘 이해된 도메인에서 Level 4 가능
  • Level 5는 광범위한 검증 없이 가정하지 않음

자율성 인증서(Autonomy Certificates): 에이전트의 허용 자율성 수준을 제한하는 거버넌스 메커니즘. 모델 능력과 분리되어, 강력한 모델도 안전을 위해 낮은 자율성 수준에 의도적으로 제한 가능.

완전 자율 = 인간 제거가 아니다

Level 5에서도 시스템에 필요한 것:

  • 비상 정지 기능
  • 거버넌스 프레임워크
  • 감사 추적
  • 주기적 인간 검증
  • 역량 범위 밖 작동 감지 및 보고

"진정한 자율은 인간을 제거하는 것이 아니라, 인간의 기여가 가장 큰 가치를 만드는 곳을 재정의하는 것이다."

이것이 HITL 엔지니어링의 궁극적 목표다. 인간이 루프에서 빠지는 것이 아니라, 운영에서 전략으로, 전술에서 설계로 이동하는 것이다.


맺으며: 1957년의 수학이 2026년의 시스템을 만든다

이 글을 관통하는 하나의 서사가 있다:

  • 1957년, Chow가 "거부할 때의 비용"이라는 수학을 만들었다
  • 2015년, Google이 "ML 코드는 5%뿐"이라는 현실을 폭로했다
  • 2022년, Anthropic이 "LLM은 (대부분) 자기가 아는 것을 안다"를 증명했다
  • 2025년, Airbnb가 "에이전트-인-더-루프 플라이휠"로 수 주 내 재학습을 달성했다
  • 2025년, Klarna가 "자동화율만 최적화하면 안 된다"는 교훈을 남겼다

신뢰도 임계치, 에스컬레이션, 피드백 루프 — 이 세 기둥은 독립된 기능이 아니라 하나의 순환 시스템이다. 각 기둥이 나머지를 강화하고, 순환이 반복될수록 시스템은 더 똑똑해지며, 인간의 개입은 더 적지만 더 가치 있어진다.

코어닷투데이의 모든 AI 제품에서 이 세 기둥은 작동하고 있다. AI 아르스 키오스크의 실시간 경험 판단, 의정지원 AI의 정책 복잡도 라우팅, Sharp-PINN의 검사 신뢰도 기반 에스컬레이션 — 매일의 인터랙션이 피드백이 되어 시스템을 개선하는 순환.

Chow가 1957년에 증명했듯, 최적의 "모르겠다"는 비용 함수가 결정한다. 2026년에도 이 원리는 변하지 않았다. 변한 것은 "모르겠다"를 말할 수 있는 시스템이 마침내 충분히 똑똑해졌다는 것이다.