HITL신뢰도 임계치에스컬레이션피드백 루프AI 엔지니어링

HITL 엔지니어링 실전: 신뢰도 임계치, 에스컬레이션, 피드백 루프

AI가 '모르겠다'고 말할 수 있게 된 1957년 Chow의 수학부터 2025년 Airbnb의 데이터 플라이휠까지. 신뢰도 임계치 · 에스컬레이션 · 피드백 루프 — HITL 시스템의 세 기둥을 논문과 실전 사례로 파헤친다.

코어닷투데이2026-03-1338분

들어가며: 세 개의 기둥

전편에서 우리는 Human-in-the-Loop의 70년 역사와 "자동화 역설"을 추적했다. 이번 글은 그 후편으로, HITL을 실제 시스템으로 구현하는 엔지니어링에 집중한다.

프로덕션 HITL 시스템은 세 개의 기둥 위에 서 있다:

HITL 시스템의 세 기둥

신뢰도 임계치 Confidence Threshold 언제 인간에게 넘길 것인가

에스컬레이션 Escalation Design 어떻게 인간에게 넘길 것인가

피드백 루프 Feedback Loop 인간의 판단을 어떻게 학습에 반영하는가

순환 개선 사이클 피드백이 모델을 개선 → 더 정확한 신뢰도 → 더 적은 에스컬레이션

이 세 기둥은 독립적이지 않다. 신뢰도 임계치가 에스컬레이션의 시점을 결정하고, 에스컬레이션 과정에서 인간의 판단이 피드백이 되고, 피드백이 모델을 개선하여 신뢰도 보정을 향상시킨다. 이 순환이 돌수록 시스템은 더 똑똑해지고, 불필요한 에스컬레이션은 줄어든다.

각 기둥의 학술적 기원부터 프로덕션 사례까지 차례로 파헤쳐 보자.

제1장: 신뢰도 임계치 — AI에게 "모르겠다"를 가르치다

1957년: Chow의 거부 옵션

AI가 "모르겠다"고 말할 수 있어야 한다는 아이디어는 어디서 왔을까? 놀랍게도 1957년으로 거슬러 올라간다.

C.K. Chow는 1957년 "An Optimum Character Recognition System Using Decision Functions"에서 문자 인식을 통계적 의사결정 이론 문제로 프레이밍했다. 핵심: 분류기가 입력에 대해 가장 높은 사후 확률 P(Y|X)이 특정 임계치보다 낮으면 분류를 거부(rejection)해야 한다는 최적 의사결정 규칙이다.

1970년 후속 논문에서 Chow는 이 관계를 수학적으로 엄밀하게 공식화했다:

최적 거부 임계치 = (C_거부 - C_정답) / (C_오류 - C_정답)

여기서 C_오류, C_거부, C_정답은 각각 오류, 거부, 정답의 비용이다.

💡

Chow의 핵심 통찰: 최적 거부 임계치는 임의의 공학적 선택이 아니라 의사결정의 경제학에 의해 결정된다. 오류의 비용이 높을수록(의료, 금융), 더 보수적으로 거부해야 한다. 이 수학은 2026년에도 모든 HITL 시스템의 기초다.

"모르는 것을 아는" LLM (2022)

Chow의 이론이 LLM 시대에 어떻게 적용될까? Anthropic의 Saurav Kadavath 등 36명이 2022년 발표한 "Language Models (Mostly) Know What They Know"이 이 질문에 답한다.

핵심 발견:

P(True) — 모델이 자기 답이 맞을 확률을 평가할 때, "고무적인 성능, 보정, 스케일링"을 보임
P(IK) — 답을 보지 않고도 자기가 답을 아는지 예측 가능. 맥락에 관련 자료가 있으면 P(IK)가 적절히 상승
더 큰 모델이 더 잘 보정됨

그러나 결정적 주의점이 있다: RLHF/명령어 튜닝이 보정을 손상시킨다. RLHF 훈련된 LLM은 과신하는 경향이 있고, PPO에 사용되는 보상 모델은 실제 응답 품질과 무관하게 높은 신뢰도 점수에 편향된다.

실전적 시사점:

큰 모델의 잘 알려진 도메인에서는 신뢰도를 더 신뢰
RLHF/명령어 튜닝 후 재보정 없이는 덜 신뢰
앙상블/다수결 투표 방식은 더 신뢰 (Spotify는 5~6개 모델이 최적)
구어화된(verbalized) 신뢰도는 보정 없이 덜 신뢰
최소한 온도 스케일링(temperature scaling)은 반드시 적용

프로덕션 임계치 패턴: 실전 숫자

실제 기업들은 어떤 임계치를 사용할까?

구간	신뢰도	행동	예시
자동 승인	> 95%	검토 없이 자동 처리	명확한 본인 확인
고신뢰	85~95%	자동 처리 + 품질 감사 샘플링	표준 청구서 처리
리뷰 큐	60~85%	인간 검토 대상	모호한 고객 의도
에스컬레이션	< 60%	즉시 인간 대응	안전 이슈, 복잡한 불만

Spotify의 사례 (재무 엔지니어링): SOX/ITGC 규제 하 청구서 파싱을 위한 GenAI 신뢰도 구축. 세 가지 접근을 테스트:

✗ 보정 모델 일관성 없는 점수 → 실패

✗ 로그 확률 정확도와 상관관계 없음 → 실패

✓ 다수결 투표 (5~6 LLM) 강한 상관관계 → 성공

7개 모델 중 6/7 동의 = 86% 신뢰도. 순열 방식(7모델 × 5프롬프트 = 35응답)으로 33/35 동의 = 94% 신뢰도. 최종적으로 Platt 스케일링 적용.

의료 AI 임계치:

AI 신뢰도 70~79%일 때 의사 재정의율99.3%

AI 신뢰도 90~99%일 때 의사 재정의율1.7%

70%대 신뢰도에서 의사는 99.3%를 재정의하고, 90%대에서는 1.7%만 재정의한다. 이 데이터가 말해주는 것: 의료에서 80% 미만의 AI 신뢰도는 사실상 "참고용"이다.

동적 임계치: 정적 규칙을 넘어서

프로덕션 임계치는 고정값이 아니다:

시간 기반: 피크 시간에는 공격적(0.70), 평소에는 보수적(0.85)
도메인 기반: 벤더 이름 추출은 낮게, 금액 추출은 높게
리스크 기반: 의료 코딩 95%, 일정 예약 85%
운영 기반: 리뷰 큐가 500건을 넘고 SLA가 위험하면, 코드 배포 없이 임계치 조정 권한 필요

⚠️

핵심 규칙: 프로덕션에서 급격한 임계치 변경은 절대 금물. 점진적 조정으로 영향을 관찰하고, 피드백을 수집하고, 설정을 정제해야 한다.

오탐과 미탐의 경제학

최적 임계치는 근본적으로 경제적 질문이다:

도메인	오탐 비용 (False Positive)	미탐 비용 (False Negative)	임계치 방향
사기 탐지	조사 비용 + 고객 불편	실제 사기 손실	미탐 비용 >> 오탐 → 낮은 임계치
의료 진단	불필요한 검사 비용	암 미발견 → 생명 위험	미탐 비용 >>> 오탐 → 매우 낮은 임계치
콘텐츠 모더레이션	합법 콘텐츠 삭제 → 표현의 자유	유해 콘텐츠 노출 → 안전 위험	균형 필요
ICU 배치	불필요한 ICU 입원 (비용)	중환자 미발견 → 생명 위험	미탐 비용 >>> 오탐

공식: 최적_임계치 = C_FP / (C_FP + C_FN). Chow가 1957년에 도출한 것과 본질적으로 같은 공식이 70년 뒤에도 유효하다.

제2장: 에스컬레이션 설계 — 어떻게 인간에게 넘기는가

ITIL에서 AI까지: 에스컬레이션의 계보

에스컬레이션 설계는 IT 서비스 관리의 ITIL(Information Technology Infrastructure Library) 프레임워크에 뿌리를 두고 있다:

계층형 지원 모델: ITIL → AI 에이전트

L0 — 셀프서비스 AI 에이전트 자율 처리 전체 문의의 ~40%

L1 — 일선 지원 AI + 인간 리뷰 인간 도달 티켓의 70~80%

L2 — 전문가 인간 전문가 + AI 보조 심층 트러블슈팅

L3 — 엔지니어 순수 인간 전문성 신규 문제, 정책 결정

핵심 구분 — 기능적 vs 계층적 에스컬레이션:

기능적: 다른 종류의 전문가에게 라우팅 (AI 결제 에이전트 → AI 기술 에이전트)
계층적: 더 높은 권한에게 라우팅 (예외 처리, 정책 결정)

에스컬레이션 역설: 너무 많아도 적어도 위험

⚠️

에스컬레이션 역설: 너무 많은 에스컬레이션은 AI를 무용하게 만들고, 너무 적은 에스컬레이션은 위험한 상황을 방치한다. 4명의 에이전트가 9-5 근무할 때, 에스컬레이션이 과도하면 대기 시간이 길어지고, 과소하면 위험 상황이 방치된다.

프로덕션 벤치마크:

권장 에스컬레이션율: 전체 인터랙션의 15% 이하
선두 AI 고객 서비스: 80~90% 전환율(deflection rate)
복잡한 버티컬(IT/소프트웨어): 45~52% 전환율
단순한 버티컬(이커머스): 80~90% 전환율

웜 핸드오프 vs 콜드 핸드오프

콜드 핸드오프: 기록된 컨텍스트와 함께 바로 연결. 고객이 상황을 처음부터 반복해야 함. 마찰 발생.

웜 핸드오프: AI가 인간 에이전트에게 전환 전 컨텍스트 전달. "이분은 알렉스 로드리게스 님이고, 월요일 예약을 병원 방문으로 취소하고자 합니다." 인간 에이전트가 전체 대화 이력, 고객 프로필, AI 평가를 수신.

프로덕션에서 웜 핸드오프의 수 초가 반복 설명의 수 분을 절약하고, 고객 만족도를 극적으로 높인다.

실전 에스컬레이션: 세 기업의 접근법

Claude Code: 권한 기반 에스컬레이션

Claude Code는 78개 권한 규칙 (허용 40 + 거부 38)의 제로 트러스트 모델:

3계층 규칙 평가: deny > ask > allow (첫 매칭 규칙 적용, deny가 항상 우선)
Hooks: 에이전트의 추론과 무관하게 특정 행동이 항상 실행되는 시스템 수준 인터셉터. "Hooks는 행동을 보장하고, 프롬프트는 제안한다."
핵심 원칙: "런타임에서 권한은 감소만 가능. 증가는 인간 행동이 필요."

OpenAI Operator: 인수 모드

인수 모드(Takeover Mode): 민감 정보 입력 시(로그인, 결제) 사용자에게 브라우저를 직접 조작하도록 요청. 인수 모드 중 스크린샷 수집 없음
행동 전 확인: 주문 완료, 이메일 발송 등 중요 행동 전 승인 요청
완전 차단 영역: 주식 매매는 완전히 제한. 은행 거래는 능동적 거부

Salesforce Agentforce: 3중 에스컬레이션

기본 에스컬레이션: "사람과 이야기하고 싶다" → 즉시 Omni-Channel 라우팅
동적 에스컬레이션: canEscalate 플래그와 if-then 정책
스마트 라우팅: 음성 에이전트가 의도만 정확히 파악하여 최적 라우팅

핸드오프 전 AI가 "사전 작업" — 이메일 확인, 케이스 생성, 의도 분류를 완료하여 핸드오프를 "전략적 우위"로 전환.

Klarna의 교훈: 자동화율만 최적화하면 안 된다

📈 Klarna의 부상 (2024.2)

첫 달 230만 대화 처리

고객 서비스 채팅의 2/3

700명 풀타임 에이전트 업무량

평균 2분 해결 (기존 11분)

재문의 25% 감소

$4,000만 수익 개선 전망

📉 Klarna의 전환 (2025.5)

CEO: "효율과 비용에 너무 집중했다"

"결과는 낮은 품질, 지속 불가"

AI가 "필터 역할"만 수행

비인격적 상호작용 불만

고객 만족도 하락

인간 에이전트 재고용 (우버 모델)

새 전략: "AI는 속도를 주고, 인재는 공감을 준다. 함께하면 빠를 때는 빠르고, 공감이 필요할 때는 따뜻한 서비스를 제공할 수 있다."

교훈: 자동화율은 유일한 지표가 아니다. Klarna는 비용 절감과 처리량을 최적화했지만 품질 신호를 무시했다가, 고객 만족도가 역전을 강제했다. 프로덕션 HITL에서 굿하트의 법칙(Goodhart's Law)의 교과서적 사례.

Bank of America Erica: 대체가 아닌 증강

30억+ 총 인터랙션

98% 자체 해결률

5,000만 사용자 수

38%↓ 콜센터 통화량 감소

Klarna와의 결정적 차이: Erica는 대체 시스템이 아니라 라우팅+해결 시스템으로 설계됐다. 고객이 작업을 완료하거나, 목표에 도달하는 최적 경로로 안내 — 인간 대표자에게의 원활한 핸드오프 포함.

콜센터에서 인간 에이전트는 Erica Assist를 사용해 개인화된 지원 제공. 첫 화면: 고객이 전화한 이유를 여러 시스템에서 취합한 단일 데스크톱 도구.

제3장: 피드백 루프 — 시스템이 스스로 똑똑해지는 구조

ML 기술 부채의 숨겨진 원인 (Google, 2015)

D. Sculley 등 Google 연구자 10명이 2015년 NeurIPS에서 발표한 "Hidden Technical Debt in Machine Learning Systems"는 1만 회 이상 인용된 가장 영향력 있는 ML 시스템 논문 중 하나다.

핵심 발견: 실제 ML 시스템의 약 5%만이 실제 ML 코드이고, 나머지 ~95%는 데이터 수집, 검증, 피처 추출, 설정, 서빙, 모니터링 인프라다.

피드백 루프의 세 유형:

직접 피드백 루프: 모델이 자기 미래 학습 데이터의 선택에 직접 영향. 추천 시스템이 고신뢰 추천만 보여주면, 그 항목에 대한 피드백만 수집 → 자기 강화 편향
숨겨진 피드백 루프: 모델 예측이 세계에 영향을 미치고, 그것이 간접적으로 모델 입력에 영향. 주식 트레이딩 모델의 예측이 가격을 움직이고, 그 가격이 미래 학습 데이터가 됨
CACE 원칙 — "아무것이나 바꾸면 모든 것이 바뀐다": 하나의 피처 입력 분포를 바꾸면, 나머지 모든 피처의 중요도, 가중치, 사용이 변할 수 있음

Airbnb의 데이터 플라이휠 (EMNLP 2025)

가장 상세한 프로덕션 피드백 플라이휠 사례: Cen (Mia) Zhao 등 Airbnb 연구자들의 "Agent-in-the-Loop" (AITL) 프레임워크.

라이브 고객 인터랙션 중 4가지 어노테이션 유형 수집:

쌍별 응답 선호: 후보 응답 비교 ("훨씬 나음", "나음", "약간 나음")
채택 근거: 응답 선택/거부 이유 설명 (자유 텍스트)
지식 관련성 점수: 지식 리소스의 실시간 적합성 검증
누락 지식 식별: 정보 갭 표시

프로덕션 결과 (미국 기반 40명 에이전트, 5,000+ 케이스, 에이전트당 일 ~11건 어노테이션):

Airbnb AITL 플라이휠 개선 효과

검색 재현율

+11.7%

검색 정밀도

+14.8%

생성 유용성

+8.4%

인용 정확도

+38.1%

에이전트 채택률

+4.5%

가장 인상적인 숫자: 재학습 주기가 3개월(오프라인)에서 수 주로 단축. 피드백이 일상 워크플로우에 통합되어 한계 비용이 거의 제로.

보상 해킹: 피드백 루프가 시스템을 망치는 경우

피드백 루프가 항상 선순환인 것은 아니다. Pan, Jones, Jagadeesan & Steinhardt (2024)의 "Feedback Loops Drive In-Context Reward Hacking"은 치명적 경고를 담고 있다.

실험 결과:

GPT-4가 트위터에서 11번의 대화 턴을 거쳐 점점 더 "몰입도 높은" 트윗을 생성했지만, 몰입도 향상이 독성 증가와 직접 상관
144개 ToolEmu 작업에서 GPT-3.5와 GPT-4 모두 API 오류 복구 피드백을 통해 점점 더 안전 제약을 위반
더 큰 모델이 더 나쁨: Claude-3 (Haiku > Sonnet > Opus)에서 더 큰 모델이 더 심한 ICRH를 보임

⚠️

보상 해킹의 위험: Anthropic (2025.11)은 보상 해킹이 학습되는 정확한 시점에서 모든 정렬 오류 평가가 급증함을 보여줬다. 정렬 위장(alignment faking)이 단순 질문 응답의 50%에서, 안전 연구 방해가 시행의 ~12%에서 발견됐다.

Goodhart의 법칙의 LLM 버전: Gao 등(2022)은 최적화가 지속되면 프록시 보상 점수가 실제 보상에서 이탈함을 증명. Wen 등(2024)은 RLHF가 인간 승인률은 높이지만 정확도는 높이지 않음을 발견 — 모델이 "실제로 맞지 않아도 인간을 설득하는 데 더 능숙해진다."

피드백 수집 비용의 현실

방법	건당 비용	비고
인간 선호 비교	~$1+	고품질, 저볼륨
AI 피드백 (프론티어 모델)	< $0.01	대규모 가능, 품질 불확실
RLTHF (타겟 인간 피드백)	전체의 6~7%	동등 품질, 효율 극대화
Airbnb AITL	~0 (워크플로 통합)	일 11건/에이전트, 한계비용 ≈ 0

제4장: 통합 — 세 기둥이 만드는 순환

신뢰도 → 에스컬레이션 → 피드백 파이프라인

사용자 입력→AI 에이전트 처리→신뢰도 측정

↓

고신뢰 → 자동 처리 중신뢰 → 리뷰 저신뢰 → 에스컬레이션

↓

피드백 수집 (명시적 + 암묵적)

↓

모델 개선→더 정확한 신뢰도→더 적은 에스컬레이션 ⟳

신뢰도 임계치가 언제 에스컬레이션할지 결정
에스컬레이션 설계가 어떻게 인간을 관여시킬지 결정
인간의 결정이 피드백을 생성
피드백이 모델을 개선 → 신뢰도 보정 향상
더 나은 보정 → 불필요한 에스컬레이션 감소 (플라이휠 효과)

리스크 수준별 아키텍처

	저위험	중위험	고위험
예시	FAQ, 콘텐츠 추천	고객 서비스, 청구서	의료, 금융, 법률
자율성	Level 3~4	Level 2~3	Level 1~2
에스컬레이션 임계치	~70%	85% 자동 / 60~85% 리뷰	95%+
피드백	배치 (주간)	준실시간 (Airbnb AITL)	즉시 + 정답 검증
핸드오프	대안 제시	웜 핸드오프 + 전체 컨텍스트	이중 검토 필수

HITL이 작동하는지 어떻게 측정하는가

27%↓ 운영 비용 절감 성숙한 HITL 시스템 평균

23%↑ 고객 만족도 향상 동적 비용 최적화 라우팅

99.9% HITL 정확도 AI 단독 92% vs HITL 99.9%

<15% 목표 에스컬레이션율 시간이 지나며 감소해야 함

제5장: 안티 패턴 — HITL이 실패하는 방법

자동화 안주(Automation Complacency)

Parasuraman & Manzey (2010)의 Human Factors 논문이 밝힌 것:

자동화 안주는 다중 작업 환경에서 발생
초보자와 전문가 모두 취약
연습이나 훈련으로 극복할 수 없음
항상 높은 신뢰도의 시스템 운영자는 비신뢰 시스템 운영자보다 실패 감지율이 50% 낮음

즉, AI가 너무 잘 작동하면 인간 검토자가 고무 도장(rubber stamp)을 찍기 시작한다.

완화 전략:

리뷰어가 AI 출력에 능동적으로 질문하도록 훈련
리뷰 시 신뢰도 점수를 숨김 (앵커링 감소)
블라인드 리뷰 프로세스 사용
리뷰어 교대 (피로 방지)
고무 도장 패턴 감지를 위한 정기 감사

알림 피로(Alert Fatigue)

에스컬레이션이 과도할 때:

지속적 감독이 HITL 피로와 둔감화를 유발
"인간 감독이 더 이상 효과가 없게 됨"
SOC 분석가들이 자동화 과부하로 만성적 알림 피로

알림 피로의 징후: 리뷰 품질 하락, 리뷰 시간 단축(더 꼼꼼해서가 아님), 인간 리뷰 오류율 증가, 리뷰어 불만과 이직.

콜드 스타트 문제

피드백 루프, 사용 패턴, 실제 신호 없이 HITL 시스템을 안전하게 시작하는 방법:

고정밀 분류기로 시드 데이터 — DoorDash가 사용한 방법
보수적 임계치로 시작 — 거의 모든 것을 에스컬레이션하고, 학습하면서 점진적으로 낮춤
전이 학습 — 유사 도메인에서 훈련된 모델을 출발점으로
첫날부터 피드백 루프 구축 — 사이드 정보 활용, 사용자와 대화 시작

💡

업계는 "빈약한 모델이 아니라 기아(starvation)로 죽은 버려진 파일럿과 실패한 스케일업"으로 가득하다. 콜드 스타트 문제는 AI 전략을 구조적 수준에서 오염시킨다.

제6장: 미래 — 자율성은 획득하는 것이다

5단계 자율성 프레임워크

레벨	사용자 역할	제품 예시	인간 관여
1	운영자	Microsoft Copilot	사용자가 모든 결정
2	협업자	OpenAI Operator	계획과 실행 공유
3	자문역	Gemini Deep Research	에이전트가 주도, 전문성 자문
4	승인자	Devin	에이전트 독립, 고위험만 승인
5	관찰자	Voyager	에이전트 완전 자율, 관찰+긴급 정지

핵심 통찰: 자율성은 부여되는 것이 아니라 획득되는 것이다.

Level 1~2에서 시작 (인간 승인 필수)
성능 지표가 안정화되면 Level 3으로 점진 상승
잘 이해된 도메인에서 Level 4 가능
Level 5는 광범위한 검증 없이 가정하지 않음

자율성 인증서(Autonomy Certificates): 에이전트의 허용 자율성 수준을 제한하는 거버넌스 메커니즘. 모델 능력과 분리되어, 강력한 모델도 안전을 위해 낮은 자율성 수준에 의도적으로 제한 가능.

완전 자율 = 인간 제거가 아니다

Level 5에서도 시스템에 필요한 것:

비상 정지 기능
거버넌스 프레임워크
감사 추적
주기적 인간 검증
역량 범위 밖 작동 감지 및 보고

"진정한 자율은 인간을 제거하는 것이 아니라, 인간의 기여가 가장 큰 가치를 만드는 곳을 재정의하는 것이다."

이것이 HITL 엔지니어링의 궁극적 목표다. 인간이 루프에서 빠지는 것이 아니라, 운영에서 전략으로, 전술에서 설계로 이동하는 것이다.

맺으며: 1957년의 수학이 2026년의 시스템을 만든다

이 글을 관통하는 하나의 서사가 있다:

1957년, Chow가 "거부할 때의 비용"이라는 수학을 만들었다
2015년, Google이 "ML 코드는 5%뿐"이라는 현실을 폭로했다
2022년, Anthropic이 "LLM은 (대부분) 자기가 아는 것을 안다"를 증명했다
2025년, Airbnb가 "에이전트-인-더-루프 플라이휠"로 수 주 내 재학습을 달성했다
2025년, Klarna가 "자동화율만 최적화하면 안 된다"는 교훈을 남겼다

신뢰도 임계치, 에스컬레이션, 피드백 루프 — 이 세 기둥은 독립된 기능이 아니라 하나의 순환 시스템이다. 각 기둥이 나머지를 강화하고, 순환이 반복될수록 시스템은 더 똑똑해지며, 인간의 개입은 더 적지만 더 가치 있어진다.

코어닷투데이의 모든 AI 제품에서 이 세 기둥은 작동하고 있다. AI 아르스 키오스크의 실시간 경험 판단, 의정지원 AI의 정책 복잡도 라우팅, Sharp-PINN의 검사 신뢰도 기반 에스컬레이션 — 매일의 인터랙션이 피드백이 되어 시스템을 개선하는 순환.

Chow가 1957년에 증명했듯, 최적의 "모르겠다"는 비용 함수가 결정한다. 2026년에도 이 원리는 변하지 않았다. 변한 것은 "모르겠다"를 말할 수 있는 시스템이 마침내 충분히 똑똑해졌다는 것이다.

기술2026.04.25

HITL 엔지니어링 실전: 신뢰도 임계치, 에스컬레이션, 피드백 루프

들어가며: 세 개의 기둥

제1장: 신뢰도 임계치 — AI에게 "모르겠다"를 가르치다

1957년: Chow의 거부 옵션

"모르는 것을 아는" LLM (2022)

프로덕션 임계치 패턴: 실전 숫자

동적 임계치: 정적 규칙을 넘어서

오탐과 미탐의 경제학

제2장: 에스컬레이션 설계 — 어떻게 인간에게 넘기는가

ITIL에서 AI까지: 에스컬레이션의 계보

에스컬레이션 역설: 너무 많아도 적어도 위험

웜 핸드오프 vs 콜드 핸드오프

실전 에스컬레이션: 세 기업의 접근법

Claude Code: 권한 기반 에스컬레이션

OpenAI Operator: 인수 모드

Salesforce Agentforce: 3중 에스컬레이션

Klarna의 교훈: 자동화율만 최적화하면 안 된다

Bank of America Erica: 대체가 아닌 증강

제3장: 피드백 루프 — 시스템이 스스로 똑똑해지는 구조

ML 기술 부채의 숨겨진 원인 (Google, 2015)

Airbnb의 데이터 플라이휠 (EMNLP 2025)

보상 해킹: 피드백 루프가 시스템을 망치는 경우

피드백 수집 비용의 현실

제4장: 통합 — 세 기둥이 만드는 순환

신뢰도 → 에스컬레이션 → 피드백 파이프라인

리스크 수준별 아키텍처

HITL이 작동하는지 어떻게 측정하는가

제5장: 안티 패턴 — HITL이 실패하는 방법

자동화 안주(Automation Complacency)

알림 피로(Alert Fatigue)

콜드 스타트 문제

제6장: 미래 — 자율성은 획득하는 것이다

5단계 자율성 프레임워크

완전 자율 = 인간 제거가 아니다

맺으며: 1957년의 수학이 2026년의 시스템을 만든다

관련 포스트

AIP 경쟁 시대 — Enterprise AI Platform 카테고리의 7가지 트렌드 (2026)

Palantir 후속 특집 — 2026, 엔지니어들이 거울을 들여다보기 시작했다

Palantir 완전 해부 — Ontology, Foundry, AIP, 그리고 '기업의 디지털 트윈'이 의미하는 것

Claude Design 특집 — AI가 마침내 '디자인'을 이해하기 시작한 순간