HITLRLHFAI 안전인간-AI 협업Active Learning

Human-in-the-Loop 특집: AI가 똑똑해질수록 사람이 더 중요해지는 역설

1940년대 사이버네틱스에서 2026년 에이전트 AI까지 — 자동화가 고도화될수록 인간의 판단이 더 결정적이 되는 '자동화 역설'의 역사, 학술적 근거, 그리고 실전 사례를 추적한다.

코어닷투데이2025-12-1150분

들어가며: 자동화 역설

Human-in-the-Loop: 인간과 AI의 피드백 루프

1983년, 심리학자 리산 베인브리지(Lisanne Bainbridge)가 하나의 역설을 발견했다. 자동화 시스템이 정교하고 신뢰할수록, 인간의 기여가 더 결정적이 된다는 것이다. 이것이 자동화 역설(Automation Paradox)이다.

단순한 역설이 아니라 구조적 필연이다. AI가 일상적 판단을 완벽하게 처리할수록, 남는 것은 예외, 모호함, 고위험 결정 — 즉, 인간만이 다룰 수 있는 영역이다. 루틴을 기계화하면 할수록 인간에게 남는 과업의 난도와 중요도가 올라간다.

2026년, AI 에이전트가 GitHub 커밋의 4%를 작성하고, 고객 문의의 2/3를 처리하고, 방사선 판독의 절반을 대신하는 시대에 — 이 역설은 단지 이론이 아니라 모든 AI 시스템 설계의 핵심 원칙이 되었다.

이 글은 Human-in-the-Loop(HITL)의 기원부터 최신 연구, 그리고 실전 사례까지 추적하며, 왜 가장 뛰어난 AI 시스템이 인간을 배제하지 않고 중심에 두는지를 파헤친다.

99.5% AI + 인간 진단 정확도 AI 단독 92% vs 인간 단독 96%

73% HITL이 적용된 에이전트 도구 호출 Anthropic 수백만 건 분석 기준

40%+ 2027년까지 취소될 에이전트 프로젝트 Gartner — HITL 부재가 주요 원인

$139억 2033년 데이터 레이블링 시장 2025년 $41억 → CAGR 18.69%

제1장: 기원 — 되먹임 회로 속의 인간 (1940s–1960s)

SAGE 시스템: 최초의 인간-컴퓨터 협업 방공 시스템

노버트 위너와 사이버네틱스 (1948)

HITL의 지적 뿌리는 노버트 위너(Norbert Wiener)의 1948년 저작 Cybernetics: Or Control and Communication in the Animal and the Machine에 있다. 위너는 그리스어로 "조타수"를 뜻하는 단어에서 "사이버네틱스"를 만들었다 — 의도적으로 배의 조향 엔진을 "피드백 메커니즘의 가장 초기이자 가장 잘 발달된 형태"로 참조하면서.

위너의 핵심 통찰: 시스템(생물학적이든, 기계적이든, 사회적이든)은 메시지(정보)의 전송과 수신(피드백)의 품질에 의존한다. 이 피드백 루프 개념은 서보메커니즘, 자동 항법, 아날로그 컴퓨팅, 인공지능, 신경과학의 이론적 기반이 되었다.

1950년 The Human Use of Human Beings에서 위너는 비전문가 대중을 위해 같은 개념을 풀어냈다. 여기서 이미 핵심 질문이 등장한다: 자동화 시스템 안에서 인간의 역할은 무엇인가?

SAGE: 최초의 Human-in-the-Loop 컴퓨터 시스템 (1950s)

위너의 이론이 최초로 대규모 실전에 적용된 것이 SAGE (Semi-Automatic Ground Environment)다. 1951년 구상되어 1963년 완전 배치된 미국 최초의 통합 자동 방공 시스템이다.

SAGE는 최초의 실시간 디지털 컴퓨터, 최초의 인간-컴퓨터 인터페이스, 최초의 시스템 공학적 접근으로 인정받는다. 그런데 SAGE의 설계에서 가장 의미심장한 것은 이름의 "Semi-Automatic"이다.

SAGE 시스템의 Human-in-the-Loop 구조

레이더 데이터 융합 컴퓨터 자동 처리

궤적 예측 컴퓨터 자동 처리

요격 제안 컴퓨터 자동 처리

인간 오퍼레이터 (100+ 스테이션) 트랙 검증 · 교전 승인 · 알고리즘 재정의 · 거부권

컴퓨터는 원시 레이더 데이터를 융합하고, 궤적을 예측하고, 요격을 제안했다. 하지만 인간 오퍼레이터가 트랙을 검증하고, 교전을 승인하고, 알고리즘을 재정의했다. 지휘관은 시스템 추천 옵션 중에서 선택하고 투입 명령을 내리되, 거부권을 보유했다.

완전 자동화가 의도적으로 배제된 이유: 1950년대 컴퓨팅의 한계도 있었지만, 더 근본적으로 고위험 결정에서 인간 판단의 인과적 필연성 때문이었다. 레이더 이상이나 연산 오류로 인한 잘못된 자동 발사 — 그 결과는 되돌릴 수 없다.

70년이 지난 2026년, AI 에이전트 시스템에서 "행동 전 인간 승인" 패턴은 SAGE의 설계 원리를 정확히 계승하고 있다.

"Human-in-the-Loop"라는 용어의 탄생

이 용어는 항공우주 공학에서 유래했다. 비행기가 너무 복잡해져서 많은 운용 기능이 자동화되어야 했을 때, 시스템을 중단시킬 수 있는 인간이 "루프 안에" 있어야 한다는 공학적 요구에서 탄생했다.

관련 용어의 최초 출판 기록은 1963년, 아폴로 프로그램 매니저 Joseph Shea의 문맥에서 등장한다. 1976년 원래의 공학적 의미로 사용되기 시작했고, 1979년에는 "시스템의 매개변수에 대해 선택을 내리는 복잡한 구성 요소로서의 인간"이라는 확장된 의미를 갖게 된다. 1990년대에 AI 커뮤니티가 이 용어를 차용하여 "AI 의사결정 과정에서 인간 개입이 필요한 시스템"을 설명하는 데 사용하기 시작했다.

엥겔바트: 인간 지성의 증강 (1962–1968)

더글러스 엥겔바트(Douglas Engelbart)는 1962년 보고서 "Augmenting Human Intellect: A Conceptual Framework"에서 HITL의 또 다른 뿌리를 심었다. 그는 인간 지성 증강을 복잡한 문제 상황에 접근하고, 이해를 얻고, 해결책을 도출하는 개인의 능력을 높이는 것으로 정의했다.

엥겔바트가 개발한 H-LAM/T 시스템 (Human using Language, Artifacts, Methodology, in which he is Trained)은 인간과 도구의 통합을 체계화한 최초의 프레임워크였다.

1968년 12월 9일, "모든 데모의 어머니(The Mother of All Demos)"에서 엥겔바트는 90분간의 라이브 시연을 통해 윈도우, 하이퍼텍스트, 마우스, 워드 프로세싱, 화상 회의, 실시간 협업 편집을 세계 최초로 선보였다. 시스템은 30마일 떨어진 SRI 사무실에 있었고, 커스텀 마이크로웨이브 비디오 링크로 연결되었다.

엥겔바트의 비전은 AI를 인간의 대체재가 아니라 증강 도구로 보는 관점의 원형이다. "인간 OR 기계"가 아니라 "인간 WITH 기계" — 이 프레임은 2026년 HITL의 핵심 철학으로 그대로 이어진다.

제2장: 학술적 기반 — HITL의 과학을 만든 논문들

Active Learning: HITL의 수학적 기초 (2009)

Burr Settles의 2009년 위스콘신-매디슨 대학 서베이 논문 "Active Learning Literature Survey"는 6,000회 이상 인용되며 이 분야의 기초가 되었다.

핵심 아이디어: 학습 알고리즘이 스스로 학습할 데이터를 선택할 수 있다면, 더 적은 레이블 데이터로 더 높은 정확도를 달성할 수 있다.

Active Learning의 세 가지 시나리오

Pool-based 가장 일반적 대규모 비레이블 데이터에서 가장 유용한 샘플 선택

Stream-based 순차 처리 데이터가 순차적으로 도착, 각 인스턴스에 대해 쿼리 여부 결정

Query Synthesis 합성 생성 결정 경계 근처의 합성 샘플 생성

비용 절감 수치:

목표 정확도 달성에 필요한 레이블 수 30~70% 감소
전체 데이터의 30~50%만 레이블링하고도 완전 지도 학습과 동등한 성능
무작위 샘플링 대비 5~20% 성능 향상
Amazon 추천 엔진: 사용자 행동 데이터에 대한 능동 학습으로 추천 정확도 15% 향상

Active Learning이 HITL의 수학적 기초인 이유: 모든 데이터에 인간이 레이블을 붙이는 것이 아니라, 가장 가치 있는 데이터에만 인간의 판단을 집중시키는 것이 핵심이다. 인간의 시간과 주의는 유한한 자원이며, 이것을 최적화하는 것이 HITL의 본질이다.

🎯

Active Learning의 효과: 목표 정확도 달성에 필요한 레이블 수 30~70% 감소. 전체 데이터의 30~50%만 레이블링하고도 완전 지도 학습과 동등한 성능 달성. 인간의 시간을 가장 가치 있는 곳에 집중시키는 것이 HITL의 본질이다.

Interactive Machine Learning: 사용자는 오라클이 아니다 (2014)

Saleema Amershi, Maya Cakmak, W. Bradley Knox, Todd Kulesza의 2014년 AI Magazine 논문 "Power to the People"은 중요한 경고를 담고 있었다:

"Active learning이 더 빠른 수렴을 가져오지만, 사용자는 학습기의 끝없는 질문에 답해야 하고 상호작용에 대한 통제권이 없어 좌절한다."

인간은 단순한 오라클(oracle)이 아니다. 집중력이 흐트러지고, 피로해지고, 좌절한다. HITL 시스템 설계에서 인간의 인지적 한계를 고려하지 않으면 시스템은 실패한다.

이 발견은 2026년에도 여전히 유효하다. 에이전트 AI에서 "행동 전 매번 인간에게 물어보기"는 이론적으로 안전하지만, 실제로는 승인 피로(approval fatigue)를 유발한다. Anthropic의 연구에 따르면 Claude Code 사용자 중 경험이 쌓일수록(750+ 세션) 완전 자동 승인 비율이 20%에서 40% 이상으로 증가한다.

Rebecca Fiebrink의 Wekinator: 창작을 위한 HITL (2008)

프린스턴 대학의 Rebecca Fiebrink가 2008년 만든 Wekinator는 실시간 인터랙티브 ML을 위한 오픈소스 도구다. 코드 대신 인간의 행동과 제스처를 통해 인터랙티브 시스템을 구축한다 — 신체 포즈를 사운드 합성 파라미터에 연결하는 식으로.

Wekinator는 HITL의 또 다른 가능성을 보여줬다: 데이터 레이블링이나 안전 감독이 아니라 창작 도구로서의 HITL. 전문 음악가, 게임 컨트롤러, 컴퓨터 비전 시스템에 사용되며, "인간이 AI를 가르치는 것이 프로그래밍보다 자연스러울 수 있다"는 통찰을 제공했다.

제3장: RLHF — ChatGPT를 만든 기술, 그 뿌리의 HITL

RLHF: 인간의 피드백이 AI를 형성하는 과정

RLHF의 탄생 (2017)

2017년 6월 12일, Paul Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei — OpenAI와 DeepMind의 연구자들이 "Deep Reinforcement Learning from Human Preferences"를 발표했다.

핵심 아이디어: 보상 함수를 수작업으로 설계하는 대신, 비전문가 인간이 궤적 쌍 중 선호하는 것을 고르게 하여 복잡한 RL 행동을 학습한다. 놀라운 점: 에이전트 상호작용의 1% 미만에 대한 인간 피드백만으로 복잡한 RL 과제(Atari 게임, 시뮬레이션 로봇 보행)를 해결했다.

이 논문은 나중에 현대 LLM 정렬의 기반이 되는 RLHF의 원조 논문으로 인정받게 된다.

InstructGPT: 1.3B가 175B를 이기다 (2022)

OpenAI의 Long Ouyang 등 15명 이상의 공저자가 2022년 3월 발표한 InstructGPT 논문은 RLHF의 첫 대규모 실전 적용이었다.

방법론: GPT-3를 레이블러 시연으로 지도 학습 → 출력 순위에서 보상 모델 훈련 → RLHF 적용.

GPT-3 (175B) → SFT → 보상 모델 훈련 → RLHF

결과는 충격적이었다: 1.3B 파라미터 InstructGPT가 175B GPT-3보다 선호됐다. 파라미터 수가 100배 적은 모델이 더 나은 응답을 생성한 것이다. 175B InstructGPT는 GPT-3 대비 85±3% 선호, few-shot GPT-3 대비 71±4% 선호를 받았다. 진실성이 향상되고 독성 출력이 감소했다.

이것이 HITL의 힘이다: 순수한 스케일(더 큰 모델, 더 많은 데이터)보다 소량의 인간 피드백이 품질에 미치는 영향이 압도적으로 크다. InstructGPT는 ChatGPT, Claude, Bard로 이어지는 모든 현대 LLM의 직접적 기반이 되었다.

💡

핵심 인사이트: InstructGPT의 교훈은 "파라미터를 100배 늘리는 것보다 인간 피드백을 추가하는 것이 더 효과적"이라는 것이다. 이것은 AI 산업 전체의 방향을 바꿨다 — 모델 크기 경쟁에서 정렬 품질 경쟁으로.

Constitutional AI: 인간 노동의 자동화 (2022)

Anthropic의 Yuntao Bai 등이 2022년 12월 발표한 Constitutional AI는 HITL의 다음 진화를 제시했다.

2단계 방법론:

자기 비판과 수정 — AI가 "헌법"(원칙 세트)에 따라 스스로의 출력을 비판하고 수정
RLAIF — 인간 대신 AI가 생성한 선호 데이터셋으로 RL 학습

결과: 파레토 개선 달성 — 표준 RLHF보다 더 유용하면서 동시에 더 무해한 모델. 그리고 핵심은 약 10개의 인간 작성 원칙만 필요했다는 것이다. 나머지 피드백과 레이블링은 AI가 수행했다.

Constitutional AI는 HITL의 역설적 진화를 보여준다: 인간의 역할을 수천 건의 개별 판단에서 소수의 원칙 설계로 "압축"한 것이다. 인간의 개입이 줄어든 것이 아니라, 추상화 수준이 올라간 것이다.

DPO: 정렬을 단순화하다 (2023)

Rafael Rafailov 등의 2023년 NeurIPS 논문 "Direct Preference Optimization"은 또 하나의 돌파구였다. 보상 함수와 최적 정책 사이의 매핑을 발견하여, RLHF 문제를 단순한 이진 교차 엔트로피 분류 손실로 풀 수 있게 했다. 명시적 보상 모델이나 RL이 불필요해졌다.

PPO 기반 RLHF보다 감정 제어에서 우수하고, 요약과 대화 품질에서 동등 이상의 성능. 정렬이 상당히 단순하고, 안정적이고, 계산적으로 가벼워졌다. 2025–2026년 현재 DPO는 LLM 후훈련에서 가장 널리 사용되는 정렬 기법이다.

RLHF에서 Constitutional AI, DPO까지의 궤적이 보여주는 패턴:

기법	인간 개입 수준	확장성
RLHF (2017)	수천~수만 건의 선호 판단	낮음
InstructGPT (2022)	수천 건 시연 + 수만 건 비교	중간
Constitutional AI (2022)	~10개 원칙 설계	높음
DPO (2023)	인간 선호 데이터 재활용	매우 높음
RLAIF (2024~)	원칙만 인간, 나머지 AI	극대화

인간 개입의 양은 줄어들지만, 개입의 추상화 수준과 영향력은 오히려 커진다. 이것이 HITL 진화의 방향이다.

제4장: 인간-AI 상보성 — 1+1이 3이 되는 조건

1,500개 기업이 증명한 것 (2018)

H. James Wilson과 Paul R. Daugherty가 2018년 Harvard Business Review에 발표한 "Collaborative Intelligence: Humans and AI Are Joining Forces"는 1,500개 기업에 대한 연구를 기반으로 했다.

핵심 발견:

"가장 큰 성과 향상은 인간과 기계가 함께 일하며 서로의 강점을 보완할 때 나온다. 주로 인력 감축을 위해 자동화하는 기업은 단기적 이익만 얻는다."

인간의 세 가지 역할: AI 에이전트를 훈련하고, 그 출력을 설명하고, 책임 있는 사용을 보장하는 것. AI의 더 큰 영향력은 인간 능력을 대체하는 것이 아니라 보완하고 증강하는 데 있다.

Stanford HAI의 "더 나쁜 AI가 더 나은 결정을 만든다" (2025)

Stanford의 Jann Spiess 연구는 직관에 반하는 결과를 보여줬다. 모든 경우에 예측을 제공하는 AI보다, 불확실하거나 오류 가능성이 높은 경우에만 선별적으로 추천하는 "상보적 알고리즘(complementary algorithm)"을 사용하는 사람이 가장 정확한 결정을 내렸다.

핵심 통찰: 올바른 질문은 "AI가 인간보다 나은가?"가 아니라 "AI의 상보적 활용 방법은 무엇인가?"다.

신뢰 교정(Trust Calibration) 문제

HITL 시스템의 가장 미묘한 실패 모드는 부적절한 신뢰다:

과신뢰(over-reliance): AI 조언이 맥락적 정보와 자신의 판단에 모순되어도 따르는 현상. AI가 생성한 조언이라는 사실만으로 과신뢰가 유발됨
과소신뢰(under-reliance): AI의 올바른 조언도 무시하는 현상
오보정된 AI 신뢰도: 과신적 AI는 과신뢰를, 과소신적 AI는 과소신뢰를 유발 — 대부분의 사용자가 이를 감지하지 못함

두 방향 모두 해롭다. HITL 시스템 설계의 핵심 과제는 인간이 AI의 올바른 조언은 따르고 잘못된 조언은 거부하는 "적절한 의존(appropriate reliance)"을 달성하는 것이다.

제5장: HITL 설계 패턴 — 이론에서 시스템으로

세 가지 관여 수준

인간 관여의 세 가지 수준

Human-in-the-Loop HITL AI가 행동 전 인간 승인을 위해 일시 정지. 높은 통제력, 느린 속도

Human-on-the-Loop HOTL 인간이 수동적으로 모니터링, 임계치 초과 시에만 개입

Human-out-of-the-Loop HOOTL 기계가 독립적으로 의사결정. 확장성 높지만 감독 약함

2025년에는 이것이 5단계 자율성 프레임워크로 세분화되었다: (1) 운영자, (2) 협업자, (3) 자문역, (4) 승인자, (5) 관찰자. 에이전트의 자율성 수준은 능력과 별개인 의도적 설계 결정이다.

신뢰도 임계치와 에스컬레이션 패턴

실전 HITL 시스템의 핵심 메커니즘:

신뢰도 임계치: AI 확신도가 60~70% 이하일 때 핸드오프 활성화, 40% 하드 플로어
다중 트리거 에스컬레이션: 신뢰도 임계치 + 감성 감지 + 명시적 요청("사람과 이야기하고 싶다") + 복잡성 + 규제 요구 + 긴급도
계층적 접근: 루틴은 완전 자동화, 중간 신뢰도는 인간 리뷰 샘플링, 고위험/저신뢰도는 필수 리뷰
에스컬레이션 2~3초 내 완료 (엔터프라이즈 시스템 기준)

정적 규칙보다 동적 에스컬레이션이 효과적이다: 에스컬레이션 발생 시점과 이유를 추적하고, 인간이 올바른/잘못된 에스컬레이션을 피드백하는 루프를 구축하고, 관찰 가능성 대시보드로 패턴을 파악한다.

핸드오프 문제와 해법

AI-인간 핸드오프의 가장 흔한 실패 모드는 컨텍스트 손실이다. 인간 에이전트가 AI로부터 충분한 맥락을 전달받지 못하는 것이다.

최선의 실천: 인간 에이전트가 고객 이름을 부르고, 이슈를 인지하고, AI가 중단한 지점에서 이어받는 "웜 웰컴" 핸드오프.

프로덕션 결과:

순수 자동화 대비 30~35% 생산성 향상
25% 높은 고객 만족도
성숙한 구현에서 고객의 95%가 AI→인간 전환을 감지하지 못함

제6장: 산업별 HITL 사례 — 숫자가 말하는 가치

의료 AI: 의사와 AI가 함께 진단하는 미래

의료: 99.5%의 정확도

2024년 기준 FDA 승인 AI/ML 의료기기 950개, 이 중 723개가 영상의학 대상
그러나 30% 미만이 임상 시험을 거침
EU AI Act는 영상의학 AI를 "고위험"으로 분류, HITL 감독 메커니즘 의무화

핵심 사례: GE HealthCare에 인수된 Caption Health의 FDA 승인 AI 초음파 시스템은 경험이 적은 의사도 진단 품질의 이미지를 얻을 수 있게 했다. UK 다기관 연구에서 AI 보조 유방촬영은 진단 품질을 유지하면서 방사선 전문의 업무량을 거의 절반으로 줄였다.

가장 설득력 있는 숫자:

의료 영상 진단 정확도 비교

AI 단독

~92%

병리학자 단독

~96%

AI + 병리학자

99.5%

AI 단독 92%, 인간 전문가 단독 96%, AI + 인간 99.5%. 이것이 상보성의 실증이다. 4%p 차이가 의료에서는 수천 명의 환자에게 영향을 미친다.

자율주행: Tesla vs Waymo — 두 가지 HITL 철학

🚗 Tesla FSD

Level 2/3 — 항시 인간 감독

카메라 10대 미만, 순수 비전

Human-in-the-Loop (운전석)

~62,500 마일당 사고 1건

🤖 Waymo

Level 4 — 차량 내 인간 없음

카메라 29 + 라이다 5 + 레이더 6

Human-on-the-Loop (원격 자문)

~98,600 마일당 사고 1건 (60%↓)

지표	Tesla	Waymo
자동화 수준	Level 2/3	Level 4
인간 역할	상시 운전자 감독	원격 자문역
사고 빈도	~62,500 마일당 1건	~98,600 마일당 1건
HITL 유형	Human-in-the-Loop	Human-on-the-Loop

Waymo가 Tesla 대비 마일당 사고율 약 60% 낮음. 인간 운전자 대비 중상 사고 10배, 보행자 부상 사고 12배 적음. 흥미로운 점은 "인간이 항상 루프 안에 있는" Tesla보다, "인간이 루프 위에서 원격 감독하는" Waymo가 더 안전하다는 것이다.

이것은 HITL 설계의 미묘한 교훈을 담고 있다: 인간이 더 많이 개입하는 것이 항상 더 안전한 것은 아니다. 인간의 주의력은 유한하며, 지속적 감시 의무는 오히려 주의력 저하를 유발할 수 있다.

콘텐츠 모더레이션: 97%의 자동화, 3%의 결정적 인간 판단

Meta: 분기당 2,600만 건 이상의 혐오 발언 제거, 97%를 AI가 사용자 신고 전에 탐지
Facebook AI: 테러 관련 콘텐츠의 99.3%를 인간 개입 전에 탐지
YouTube AI: 2023년 제거된 정책 위반 영상의 96% 이상을 자동 탐지
인간 모더레이터가 AI 탐지 콘텐츠의 5~10%를 확인 검토
하이브리드 접근의 정확도: 약 97.4%

이 구조에서 인간의 역할은 볼륨의 3~5%이지만 판단의 핵심이다: 문화적 맥락, 풍자와 혐오의 경계, 새로운 유형의 위반 — AI가 체계적으로 놓치는 영역을 인간이 보완한다.

제조: 80%에서 99.86%로

수동 육안 검사 정확도: 업계 평균 약 80% (Sandia National Labs)
인간 검수원이 결함의 20~30%를 놓침
AI 기반 검사: 주조 제품 99.86%, 철강/자동차 98%+ 결함 탐지
BMW: CNN 모델로 도장 표면 검사, 결함 약 40% 감소
자동차 부품 공장: 다운타임 28% 감소, OEE 및 처리량 향상

법률: 360,000시간을 수 초로

AI 계약 검토: 인간 대비 80% 빠르게, 26초 만에 94% 정확도
법률팀 계약 검토 시간 45~90% 단축
JPMorgan Chase의 COIN 프로그램: 상업 대출 계약 검토를 연간 360,000시간에서 수 초로 단축
AI 기반 계약 생명주기 관리 플랫폼: 3년 ROI 356%
법률 전문가의 90% 이상이 일일 1개 이상의 AI 도구 사용
단, 해석적 분석, 맥락 이해, 법적 방어 가능성에서 인간 감독은 여전히 필수

금융: 사기 탐지의 복합 효과

FinSecure Bank: AI가 사기를 60% 감소시킴 (엣지 케이스에 수동 검토 활용)
PayPal: AI 사기 탐지 정확도 50% 향상, 오탐률 감소
완전 자율 사기 탐지 시스템: 공격의 35%에 우회됨
HITL 사기 탐지: 우회율 5%로 감소
HITL로 사기 탐지 AUC 7.24% 향상, 피드백 전파로 추가 2.19% 향상

제7장: LLM 에이전트 시대의 HITL (2025–2026)

에이전트가 챗봇보다 더 많은 감독이 필요한 이유

챗봇은 응답을 생성한다. 에이전트는 행동을 실행한다. 이 차이가 HITL의 중요성을 근본적으로 바꾼다.

챗봇의 환각은 잘못된 정보를 제공한다. 에이전트의 환각은 잘못된 코드를 커밋하고, 잘못된 이메일을 보내고, 잘못된 데이터를 삭제한다. 그레이스풀 디그레이데이션도, 롤백도, HITL 안전장치도 없이.

Multi-Agent Systems Failure Taxonomy (MAST) 연구는 7개 프레임워크의 1,642개 실행 트레이스를 분석했다. 실패율은 41%에서 86.7%, 조정 장애가 전체 실패의 36.9%를 차지했다.

Anthropic의 접근: 수백만 인터랙션에서 배운 것

Anthropic은 "Measuring AI Agent Autonomy in Practice" 연구에서 Claude Code와 API를 통한 수백만 건의 인터랙션을 분석했다.

발견:

Claude Code에서 인간은 분석과 검토를 승인 없이 할 수 있지만, 코드나 시스템을 수정하는 행동은 반드시 승인 필요
초보 사용자(<50 세션): 완전 자동 승인 ~20%
숙련 사용자(750+ 세션): 완전 자동 승인 40% 이상
숙련 사용자는 더 자주 개입 — 교정이 필요한 시점에 대한 직관이 발달
도구 호출의 80%가 최소 하나의 안전장치 적용
73%에 Human-in-the-Loop 존재
되돌릴 수 없는 행동은 0.8%에 불과

가장 긴 세션(99.9번째 백분위수)이 2025년 10월~2026년 1월 사이 25분 미만에서 45분 이상으로 거의 2배 증가. 인간이 에이전트에게 더 긴 자율 시간을 허용하기 시작했다는 신호.

OpenAI의 접근: Operator의 3단계 안전장치

2025년 1월 출시된 Operator의 HITL 설계:

사용자 통제: 중요 지점에서 사용자 입력 요청, 민감 정보용 "인수 모드"
도구 사용 제한: 이메일 발송 등은 "감시 모드"로 적극 감독 필요
위험 완화: 금융 거래, 이메일, 캘린더 삭제는 명시적 확인 필수. 주식 매매는 완전 차단. 일일/동시 작업 속도 제한

ChatGPT 에이전트는 은행 송금 같은 고위험 작업을 능동적으로 거부하도록 훈련되었다.

복합 신뢰도 문제를 HITL이 해결하는 방법

단계별 99% 신뢰도에서도 10단계면 90.4%, 20단계면 81.8%. 95%로 떨어지면 10단계 59.9%, 20단계 35.8%.

⚠️

복합 신뢰도의 함정: 각 단계가 95% "성공"이라고 해도, 20단계 워크플로우의 전체 성공률은 36%에 불과합니다. HITL 체크포인트가 이 곱셈을 끊습니다.

99% × 10단계90.4%

95% × 10단계59.9%

95% × 20단계35.8%

95% × 20단계 + HITL 체크포인트~85%+

HITL은 이 곱셈을 끊는다:

에이전트 단계 1-3→자동 실행 (고신뢰)

↓

단계 4→인간 검증 (저신뢰 / 고위험)

↓

에이전트 단계 5-7→자동 실행 (고신뢰)

↓

단계 8→인간 검증 (되돌릴 수 없는 행동)

핵심: 모든 단계에서 인간을 개입시키는 것이 아니라, 신뢰도가 낮거나 결과가 되돌릴 수 없는 지점에서만 선택적으로 개입한다. 이것이 Active Learning의 원리("가장 가치 있는 곳에 인간 판단을 집중")가 에이전트 안전 설계에 적용된 것이다.

제8장: 미래 — 초인적 AI를 어떻게 감독하는가

확장 가능한 감독(Scalable Oversight) 문제

AI가 인간보다 뛰어나질 때, 인간이 AI를 어떻게 감독하는가? 이것이 AI 정렬(alignment) 연구의 핵심 질문이다.

논쟁(Debate) 기법 (Irving et al., 2018)

두 AI 시스템이 답변을 놓고 논쟁하고, 인간이 판정한다. 근본 가정: 설득력 있게 거짓말하는 것은 거짓말을 논파하는 것보다 어렵다.

인간 심판이 분야 전문가가 아니어도, 두 AI의 논쟁을 통해 더 나은 답변을 식별할 수 있다. 인간의 제한된 기술과 시간에도 불구하고 정확한 피드백을 제공하는 방법이다.

반복 증류와 증폭(IDA) — Paul Christiano

안전하지만 느린 방법으로 AI 능력을 확장
더 빠르지만 약간 약한 AI로 증류
증류된 AI를 다시 안전하게 확장
반복

AlphaGo Zero의 구조와 유사하다 — MCTS가 정책을 증폭하고, 정책이 MCTS를 증류한다. IDA로 훈련된 AI가 최첨단 성능을 달성하면서도 정렬을 유지하는 것이 목표다.

약-강 일반화(Weak-to-Strong Generalization) — OpenAI (2023)

2023년 12월, OpenAI 초정렬 팀이 "약한 모델이 강한 모델을 감독할 수 있는가?"를 탐구했다. 결과: GPT-2 수준 모델이 GPT-4 능력의 대부분을 이끌어낼 수 있었다 — GPT-3.5 수준의 성능에 근접. NLP 과제에서 GPT-2 감독이 약-강 모델 간 성능 격차의 50% 이상을 회복.

이것은 HITL의 미래에 대한 희망적 신호다: 인간이 초인적 AI보다 "약한 감독자"가 되더라도, 그 감독이 여전히 의미 있을 수 있다.

제9장: 규제가 요구하는 HITL

EU AI Act: 법적 의무로서의 HITL

EU AI Act 제14조는 고위험 AI 시스템에 인간 감독(human oversight)을 운영 중 허용하도록 요구한다. 감독자는:

시스템의 능력과 한계를 이해하고
운영을 모니터링하고
자동화 편향을 인식하고
출력을 올바르게 해석하고
시스템을 재정의할 수 있어야 한다

생체 식별의 경우 최소 2명의 자연인이 검증해야 한다. 위반 시 2,000만 유로 또는 글로벌 매출의 4% 벌금. 전면 시행 2026년 8월.

한국 AI 기본법 (2026년 1월 시행)

인간 개입 및 감독 메커니즘 요구. 고영향 AI 제공자는 리스크 관리 계획, 문서화, 인간 감독 메커니즘, 사용자 보호 조치를 구현해야 한다. EU보다 유연 — 제3자 적합성 평가 불요, 사후 시장 감독 중심.

규제의 메시지

EU AI Act와 한국 AI 기본법이 공통적으로 말하는 것: HITL은 선택이 아니라 법적 의무가 되고 있다. 이것은 HITL을 "비용"이 아니라 "시장 접근의 전제 조건"으로 만든다.

제10장: HITL의 경제학 — 느리게 가는 것이 빠른 길

숫자가 증명하는 ROI

글로벌 데이터 레이블링 시장: $41억 (2025) → $139억 (2033), CAGR 18.69%
HITL 적용 시 AI 정확도 99.5%, 오류 50% 감소
경영진의 74%가 AI 에이전트 도입 첫 해에 ROI 달성
HITL 시스템: 순수 자동화 대비 30~35% 생산성 향상, 25% 높은 고객 만족도
65%의 조직이 생성형 AI를 일상적으로 사용, HITL이 안전한 확장을 가능케 함

HITL이 속도를 늦출 것이라고 우려하던 기업들이 발견한 것: HITL이 오히려 신뢰할 수 있는 AI 배포를 가속한다. 거버넌스와 설명 가능성이 이제 기업 가치 평가의 일부 — 검증할 수 없는 시스템은 컴플라이언스 리스크로 취급된다.

맺으며: 키보드 위의 조타수

위너가 "조타수(steersman)"에서 사이버네틱스를 만들었을 때, 그는 핵심을 정확히 짚었다. 시스템이 아무리 자동화되어도, 방향을 결정하는 것은 조타수다.

이 글을 관통하는 하나의 패턴이 있다:

1948위너: 피드백 루프 안의 인간

↓

1950sSAGE: 거부권을 가진 인간 오퍼레이터

↓

1962엥겔바트: 인간 지성의 증강

↓

2009Active Learning: 인간 판단의 최적 배치

↓

2017RLHF: 인간 선호로 AI 정렬

↓

2022Constitutional AI: 원칙 설계로 인간 개입 압축

↓

2026에이전트 AI: 복합 신뢰도의 선택적 인간 검증

인간 개입의 양은 줄어들었다. 위너의 시대에는 모든 결정에 인간이 관여했고, 2026년에는 0.8%의 되돌릴 수 없는 행동에만 관여한다. 하지만 인간 개입의 질과 영향력은 오히려 높아졌다.

SAGE에서 인간은 개별 트랙을 검증했다
RLHF에서 인간은 수만 건의 선호를 제공했다
Constitutional AI에서 인간은 10개의 원칙을 설계했다
에이전트 AI에서 인간은 시스템의 자율성 수준 자체를 설계한다

개별 판단에서 시스템 설계로, 전술에서 전략으로 — 이것이 HITL 진화의 방향이다. 인간이 "루프 안에" 있는 방식이 바뀌는 것이지, 루프에서 빠지는 것이 아니다.

코어닷투데이의 모든 AI 제품 — AI 아르스 키오스크의 실시간 경험, 의정지원 AI의 정책 보좌, Sharp-PINN의 산업 검사 — 에는 이 원칙이 관통한다. 가장 자동화된 시스템에서 인간의 역할은 더 작아지는 것이 아니라 더 높아지는 것이다.

베인브리지의 자동화 역설은 1983년의 관찰이 아니라 2026년의 설계 원칙이다.

다음 글에서는 에이전트 AI 시스템에서 HITL 패턴을 실제로 구현하는 엔지니어링 경험 — 신뢰도 임계치 설정, 에스컬레이션 디자인, 피드백 루프 구축을 다뤄보겠습니다.

인사이트2026.05.12