에이전트 AIMCPA2A멀티에이전트LLM

에이전트 AI 특집: 민스키의 상상에서 AAIF까지, 70년의 여정

1950년대 튜링의 사고하는 기계에서 2026년 에이전트 간 프로토콜 표준화까지. AI 에이전트 70년의 궤적을 추적하고, 지금 일어나고 있는 구조적 전환의 본질을 파악한다.

코어닷투데이2026-01-1456분

들어가며

2025년 12월 9일, 이례적인 일이 일어났다. OpenAI, Anthropic, Google, Microsoft, AWS — 평소 치열하게 경쟁하는 AI 기업들이 Linux Foundation 아래 Agentic AI Foundation(AAIF)을 공동 설립했다. 경쟁사끼리 손잡는 일은 업계에서 흔치 않다. 1990년대 웹 표준을 둘러싼 브라우저 전쟁 이후, 기술 기업들이 이 정도 규모로 공동 인프라에 합의한 것은 처음이다.

이것은 단순한 뉴스가 아니라 신호다. AI 에이전트가 실험실의 데모에서 산업 인프라로 전환되고 있다는 신호.

하지만 이 순간을 제대로 이해하려면, 에이전트라는 개념이 어디서 시작됐는지부터 알아야 한다. 놀랍게도 그 역사는 70년 전으로 거슬러 올라간다.

제1장: 기원 — "에이전트"라는 상상의 탄생 (1950s–1990s)

튜링의 질문, 민스키의 대답

1950년, 앨런 튜링은 철학 저널 Mind에 "Computing Machinery and Intelligence"를 발표하며 하나의 질문을 던졌다. "기계가 생각할 수 있는가?" 튜링은 "에이전트"라는 단어를 쓰지 않았지만, 인간과 구분할 수 없는 대화를 하는 기계라는 비전 자체가 자율적 소프트웨어 개체의 씨앗이었다.

6년 뒤인 1956년, 마빈 민스키와 존 매카시가 다트머스 워크숍을 조직하며 AI가 학문 분야로 공식 출범했다. 그리고 30년 뒤, 민스키는 자신의 대답을 내놓는다.

1986년 출간된 The Society of Mind에서 민스키는 혁명적인 이론을 제시했다. 지능은 하나의 거대한 두뇌가 아니라, 수많은 비지능적 부분들의 상호작용에서 창발한다는 것이다. 민스키는 이 작은 부분들을 "에이전트(agent)"라고 불렀다 — 각각은 단순하지만, 그들의 사회(society)가 복잡한 지능을 만들어낸다.

"각 에이전트는 전형적인 컴퓨터 프로그램의 구성 요소 정도의 규모에서 작동한다." — 마빈 민스키

40년이 지난 2026년, 전문화된 소형 에이전트들이 오케스트레이터 아래에서 협업하는 멀티 에이전트 시스템의 구조는 민스키의 "마음의 사회"를 놀라울 정도로 충실하게 구현하고 있다.

셀프리지의 판데모니움: 최초의 에이전트 아키텍처 (1959)

민스키보다 앞서, 종종 간과되는 중요한 선구자가 있다. 올리버 셀프리지는 1959년 "Pandemonium: A Paradigm for Learning"에서 인지를 전문화된 계산 개체들의 집합으로 설명했다. 그는 밀턴의 실낙원에서 영감을 받아 이들을 "악마(demons)"라고 불렀다.

4층 위계 구조로 이루어진 판데모니움:

판데모니움 4층 위계 구조

결정 악마 (Decision) 가장 큰 소리를 낸 인지 악마를 선택

인지 악마특징들을 조합해 패턴을 추론

특징 악마특정 특징을 감지하면 "소리침"

이미지 악마 (Input) 원시 입력을 받아들임

특징 악마들이 자신의 특징을 감지하면 "소리를 지르고", 인지 악마들이 추론 결과에 따라 "울부짖고", 최상위의 결정 악마가 가장 큰 소리를 평가해 최종 판단을 내린다. 이 구조는 이후 프로덕션 시스템, 신경망, 그리고 현대 에이전트 프레임워크에 직접적인 영감을 주었다.

여기서 핵심 인사이트: 1959년의 판데모니움과 2026년의 멀티 에이전트 시스템은 놀라울 정도로 유사한 구조적 원리를 공유한다 — 전문화, 병렬 처리, 경쟁적 선택, 계층적 의사결정. 에이전트 AI의 근본 아이디어는 새로운 것이 아니다. 새로운 것은 이것을 실현할 수 있는 기반 기술(LLM)이 마침내 등장했다는 것이다.

셰이키: 스스로 계획하는 최초의 로봇 (1966–1972)

SRI International에서 개발된 셰이키(Shakey)는 자신의 행동에 대해 스스로 추론할 수 있는 최초의 범용 이동 로봇이었다. 다른 로봇들이 각 단계별 지시를 필요로 한 반면, 셰이키는 명령을 분석하고 자율적으로 기본 단위로 분해할 수 있었다.

셰이키의 두뇌 역할을 한 것이 STRIPS (Stanford Research Institute Problem Solver, 1971)다. Richard Fikes와 Nils Nilsson이 개발한 STRIPS는 세계를 1차 술어 논리 공식의 집합으로 표현하고, 전제 조건과 효과를 가진 연산자로 세계 상태를 변환했다.

흥미로운 연결 고리가 있다. STRIPS의 "전제 조건 확인 → 행동 실행 → 세계 상태 갱신" 패턴은 2022년 ReAct 논문의 "추론 → 행동 → 관찰" 루프와 구조적으로 동일하다. 55년의 시간차를 두고, 에이전트의 핵심 작동 원리는 변하지 않았다.

BDI 아키텍처: 에이전트에게 "의도"를 부여하다 (1987–1995)

철학자 마이클 브랫맨(Michael Bratman)의 1987년 실천적 추론 이론에 기반한 BDI(Belief-Desire-Intention) 모델은 자율 에이전트를 위한 가장 영향력 있는 공식 프레임워크를 제공했다.

Belief (믿음): 에이전트가 세계에 대해 가진 정보
Desire (욕구): 에이전트가 달성하고자 하는 상태
Intention (의도): 에이전트가 실제로 추구하기로 결정한 욕구

1995년, Rao와 Georgeff가 "BDI Agents: From Theory to Practice"를 발표하며 철학적 프레임워크를 실용적 구현으로 연결했다. BDI 모델은 이후 30년 넘는 자율 에이전트 연구의 기초가 되었다.

그리고 이 BDI 구조는 현대 LLM 에이전트에서 부활했다: LLM의 세계 지식이 Belief, 사용자의 목표가 Desire, Chain-of-Thought 추론을 통한 행동 계획이 Intention에 대응한다. 명시적으로 BDI를 구현하지 않아도, LLM 에이전트는 구조적으로 BDI를 재현하고 있는 셈이다.

90년대 소프트웨어 에이전트: 패티 매스의 선견지명

패티 매스(Pattie Maes)는 1991년 MIT 미디어랩에 Software Agents Group을 설립했다. 로드니 브룩스와 민스키 아래에서 수학한 그녀는 사용자의 반복적 패턴을 모니터링하여 "학습"하는 소프트웨어 에이전트를 개척했다.

1994년의 HOMR/Ringo(음악 추천)와 1995년의 Firefly(공유 관심사 기반 온라인 커뮤니티)는 협업 필터링 기법을 사용했다 — 이후 Amazon과 Netflix의 추천 엔진을 구동하게 될 바로 그 기술이다. 마이크로소프트가 1998년 Firefly를 인수했을 때, 매스는 "에이전트 기반 기술로 소셜 미디어를 거의 발명한 사람"이라는 평가를 받게 된다.

제2장: 강화학습 에이전트 — 기계가 스스로 배우기 시작하다 (1992–2019)

TD-Gammon에서 AlphaGo까지

90년대 소프트웨어 에이전트가 규칙 기반이었다면, 강화학습(RL) 에이전트는 근본적으로 다른 패러다임을 제시했다. 시행착오를 통해 최적의 행동을 학습하는 것이다.

1992년, Gerald Tesauro의 TD-Gammon은 시간차 학습(TD-learning)으로 스스로와 수십만 번 백개먼을 두며 전문가 수준의 실력에 도달한 최초의 RL 에이전트였다. 인간 전문가도 모르는 전략을 스스로 발견했다.

2013년, DeepMind의 DQN이 49개 Atari 게임을 픽셀 입력만으로 학습해 인간 수준의 성능을 달성하며 딥 강화학습의 시대를 열었다. 2015년 Nature 논문은 단일 아키텍처가 수정 없이 다양한 게임을 마스터할 수 있음을 증명했다.

그리고 2016년 3월, AlphaGo가 이세돌 9단을 4-1로 이겼다. 2억 명 이상이 지켜본 이 순간은 AI가 인간 전문가를 넘어설 수 있다는 가능성을 대중에게 각인시켰다. 이후의 진화는 더 극적이었다:

시점	모델	의미
2016	AlphaGo	인간 프로 기사 최초 격파
2017	AlphaGo Zero	인간 데이터 없이 자기 대국만으로 원본 AlphaGo 100-0 격파
2019	MuZero	게임 규칙조차 모르는 상태에서 바둑·체스·아타리 마스터

OpenAI Five와 AlphaStar: 팀워크를 배우는 에이전트

OpenAI Five (2019)는 5대5 Dota 2에서 세계 챔피언 OG를 꺾으며 팀 기반 전략 게임에서 AI가 세계 최고를 이긴 최초의 사례가 되었다. 수개월간 자기 대국을 반복하며 학습한 이 에이전트들은 팀 전략, 자원 관리, 실시간 의사결정을 배웠다.

DeepMind의 AlphaStar (2019)는 StarCraft II에서 전 종족 그랜드마스터 등급(상위 0.2%)을 달성했다. 주목할 점은 리그 기반 학습 시스템 — 다양한 에이전트들이 서로 다른 상대를 이기도록 훈련되는 멀티 에이전트 학습 생태계를 도입했다는 것이다.

RL 에이전트 시대의 교훈: 이 에이전트들은 특정 환경에서 초인적 성능을 보여줬지만, 범용성이 없었다. AlphaGo는 바둑만, OpenAI Five는 Dota 2만 할 수 있었다. "하나의 에이전트가 다양한 과제를 수행한다"는 비전은 아직 요원했다. 이 벽을 허문 것이 바로 LLM이다.

제3장: 음성 비서의 시대 — 왜 "에이전트"가 아니었나 (2011–2020)

2011년 Siri, 2014년 Alexa, 2016년 Google Assistant. 수억 명이 매일 사용하는 이 제품들은 왜 "에이전트"라고 불리지 않았을까?

흥미롭게도 Siri는 셰이키와 같은 기관인 SRI International의 DARPA 프로젝트에서 탄생했다. 하지만 상용화 과정에서 결정적 한계를 갖게 된다:

경직된 의도 탐지 — 정확히 예상된 표현만 이해
문맥 기억 없음 — 각 요청이 독립적으로 처리
다단계 추론 불가 — "타이머 설정", "음악 재생" 같은 단일 명령만 실행
적응 학습 없음 — 사용자가 기계에 맞춰야 함

이들의 본질은 "질문에 답하기"였지, "목표를 달성하기"가 아니었다. "질문에 답하기"와 "목표를 달성하기" 사이의 간극을 메우는 데 앞으로 10년이 더 필요했다.

제4장: LLM 에이전트 혁명 — 모든 것이 바뀌다 (2022–2023)

Chain-of-Thought: 생각의 사슬을 풀다 (2022년 1월)

Jason Wei 등 Google Brain 연구자 9명이 2022년 1월 28일 발표한 논문은 간단하지만 혁명적인 발견을 담고 있었다. 프롬프트에 중간 추론 단계의 예시를 몇 개 넣는 것만으로, LLM이 복잡한 추론을 수행할 수 있게 된다는 것이다.

모델 가중치를 수정하지도, 학습 데이터를 바꾸지도 않았다. 그저 "이렇게 생각해봐"라고 보여주기만 했을 뿐인데, 540B 파라미터 모델이 GSM8K 수학 벤치마크에서 SOTA를 달성했다.

Chain-of-Thought는 에이전트 아키텍처의 전제 조건이었다. 에이전트는 행동하기 전에 "계획을 세워야" 하는데, CoT가 바로 그 "계획 세우기"를 가능하게 했다.

ReAct: 현대 AI 에이전트의 탄생 (2022년 10월)

Shunyu Yao 등이 2022년 10월 발표하고 ICLR 2023에서 수락된 ReAct 논문은 현대 LLM 에이전트를 개념적으로 탄생시킨 논문이다. 핵심 아이디어: LLM이 추론 흔적(reasoning traces)과 행동(actions)을 교차로 생성하게 하는 것이다.

ReAct: Reasoning + Acting ⟳ LOOP

Thought이 질문에 답하려면 먼저 X를 검색해야 한다

ActionSearch[X]

ObserveX에 대한 검색 결과...

Thought이 결과로 보면 Y도 확인해야 한다

ActionSearch[Y]

ObserveY에 대한 검색 결과...

Thought이제 두 결과를 종합하면...

ActionFinish[최종 답변]

생각하고 → 행동하고 → 관찰하고 → 다시 생각하는 이 루프. 사실상 2026년의 모든 AI 에이전트 시스템이 이 원형 위에 구축되어 있다.

그리고 앞서 언급했듯, 이 패턴은 1971년 STRIPS의 "전제 조건 확인 → 행동 → 상태 갱신"과 구조적으로 동일하다. 55년간 변하지 않은 핵심 원리가 LLM이라는 새로운 기반 위에서 마침내 범용적으로 작동하기 시작한 것이다.

Toolformer: LLM이 스스로 도구 사용법을 배우다 (2023년 2월)

Meta AI의 Timo Schick 등이 발표한 Toolformer는 LLM이 자기 지도 학습(self-supervised)으로 도구 사용법을 습득할 수 있음을 증명했다. 각 API당 소수의 예시만으로 계산기, Q&A 시스템, 검색 엔진, 번역 시스템, 캘린더를 사용하는 법을 학습했다.

이것이 중요한 이유: 이전까지 도구 사용은 개발자가 수동으로 연결해야 하는 것이었다. Toolformer는 도구 사용이 창발적 능력(emergent capability)이 될 수 있음을 보여줬다.

AutoGPT 현상: 아름다운 실패 (2023년 3월)

2023년 3월 30일, Toran Bruce Richards가 AutoGPT를 공개했다. GPT-4 출시 몇 주 만이었다. AutoGPT는 GitHub 역사상 가장 빠르게 성장한 레포지토리가 되어 수 주 만에 10만 스타를 넘겼다.

왜 바이럴이 됐나: AI에게 목표만 말하고 떠나면, AI가 스스로 웹을 검색하고, 코드를 쓰고, 연구를 수행한다는 데모 영상은 환상적이었다.

왜 실패했나: 다단계 과제에서 각 단계의 실패 확률이 곱해진다는 근본적 문제가 드러났다. 현실적인 20% 오류율에서 10단계 과제는 신뢰도가 11%까지 떨어진다. 사용자들은 $14~50 이상의 API 비용을 쓰고도 유용한 결과를 얻지 못했다. 에이전트는 무한 루프에 빠지고, 정보를 환각하고, 예산을 태웠다.

AutoGPT의 근본 문제: 복합 신뢰도

단계별 성공률 95%일 때 → 0.95ⁿ = 전체 성공률

단계별

95% 매우 높음

5단계

77% 그럭저럭

10단계

60% 위험

20단계

36% 실패

50단계

8% 불가능

AutoGPT의 "아름다운 실패"는 업계에 결정적 교훈을 남겼다. 에이전트의 병목은 모델의 지능이 아니라 시스템의 신뢰성이라는 것. 이 교훈이 2024-2025년 에이전트 프레임워크의 성숙을 이끌었다.

같은 시기의 BabyAGI (Yohei Nakajima)도 유사한 궤적을 그렸지만, AutoGPT와 BabyAGI가 남긴 유산은 분명하다: 수십만 명의 개발자가 자율 에이전트를 직접 실험하게 만들었고, 업계가 에이전트 아키텍처와 안전에 대해 진지하게 고민하기 시작했다.

제5장: 성숙의 시기 — 프레임워크 전쟁과 제품화 (2023–2024)

Function Calling: 도구 사용의 제품화 (2023년 6월)

2023년 6월 13일, OpenAI가 GPT-4와 GPT-3.5-turbo에 함수 호출(function calling)을 도입했다. "다음 금요일 안야에게 커피 이메일 보내줘"를 send_email(to: "anya", body: "...") 같은 구조화된 JSON 호출로 변환하는 기능이다.

이것은 ReAct와 Toolformer의 개념을 프로덕션 API로 제품화한 것이었다. 동시에 임베딩 비용 75% 인하와 입력 토큰 비용 25% 인하가 함께 발표되어, 에이전트 시스템의 경제적 실현 가능성이 크게 높아졌다.

프레임워크 춘추전국시대

프레임워크	시기	핵심 특징	2025년 현황
LangChain	2022 후반	LLM 앱 개발의 지배적 프레임워크	AI 에이전트 개발자의 60%가 사용
LangGraph	2023.5	그래프 기반 에이전트 워크플로우	400개 기업 프로덕션 (Cisco, Uber, JPMorgan)
AutoGen	2023 후반	대화 기반 멀티 에이전트	2025.10 Semantic Kernel과 통합
CrewAI	2024 초	역할 기반 멀티 에이전트 팀	$18M Series A, 일 10만+ 에이전트 실행
LlamaIndex	2023	RAG 특화	100+ 데이터 커넥터

Klarna의 고객 지원 봇이 전체 고객 문의의 2/3를 처리하며 853명의 직원 업무를 대체하고 연 6천만 달러를 절감한 사례는 에이전트 프레임워크가 실제 비즈니스 가치를 창출할 수 있음을 증명했다.

Devin: 최초의 AI 소프트웨어 엔지니어 (2024년 3월)

2024년 3월 12일, Peter Thiel의 Founders Fund 등의 지원을 받은 Cognition Labs가 Devin을 공개했다. 최초의 완전 자율 AI 소프트웨어 엔지니어를 표방한 Devin은 코드 작성, 버그 수정, 테스트, 배포, 진행 상황 보고를 엔드투엔드로 수행했다. 자체 셸, 코드 에디터, 브라우저를 샌드박스 환경에서 사용했다.

정확도에 대한 의문이 제기됐지만, Devin이 증명한 것은 분명했다: 엔드투엔드 자율 코딩이 가능하다. 이후 코딩 에이전트 경쟁의 서막이 열렸다.

Claude Computer Use: 프론티어 모델의 일반적 컴퓨터 조작 (2024년 10월)

2024년 10월 22일, Anthropic이 Claude 3.5 Sonnet에 컴퓨터 사용(computer use) 기능을 공개 베타로 출시했다. 프론티어 AI 모델로서는 최초로 일반적 컴퓨터 조작 능력을 제공한 것이다.

태스크별 도구를 만드는 대신, Claude에게 일반적인 컴퓨터 기술을 가르쳤다 — 화면 보기, 커서 이동, 버튼 클릭, 텍스트 입력. Anthropic은 "아직 실험적이며 때때로 불편하고 오류가 있다"고 인정하면서도 빠른 개선을 예고했다.

이것은 에이전트 역사에서 중요한 전환점이다. 특정 API가 아니라 인간의 인터페이스 자체를 조작할 수 있게 됨으로써, 에이전트가 접근할 수 있는 도구의 범위가 사실상 무한대로 확장됐다.

제6장: 학술적 기초 — 에이전트의 과학을 만들다

스탠포드의 생성적 에이전트 (2023년 4월)

Joon Sung Park 등 스탠포드 연구자들은 The Sims에서 영감을 받아 25명의 AI 에이전트가 사는 가상 마을을 만들었다. 이 에이전트들은 아침에 일어나고, 요리하고, 출근하고, 의견을 형성하고, 서로를 인식하고, 대화를 시작하고, 하루를 돌아보며 다음 날을 계획했다.

아키텍처의 핵심: 모든 경험을 자연어로 저장하고, 기억을 상위 수준의 성찰(reflection)로 종합하며, 행동 계획에 동적으로 검색하는 구조. 이 논문은 "믿을 수 있는 AI 에이전트"의 가능성을 대중의 상상력에 심었다.

SWE-bench: 코딩 에이전트의 올림픽 (2023년 12월)

프린스턴의 Carlos E. Jimenez 등이 도입한 SWE-bench는 12개 인기 Python 레포지토리에서 수집한 2,294개 실제 GitHub 이슈로 구성된다. "LLM이 실제 세계의 코드 문제를 해결할 수 있는가?"라는 질문에 대한 가장 엄격한 벤치마크다.

SWE-bench의 점수 궤적은 에이전트 능력의 발전을 압축적으로 보여준다:

SWE-bench Verified 점수 진화

2024 초

~4-7%

2024 중반

~20%

2024 하반기

~43%

2025.11

80.9%

2년 안에 4%에서 81%로. 이 곡선의 기울기가 에이전트 AI의 현재 속도를 말해준다.

단, 현실 점검도 필요하다. 더 도전적인 SWE-bench Pro에서는 최고 모델도 23% 수준이며, 비공개 코드베이스에서는 15~18%까지 떨어진다. 벤치마크와 현실의 간극은 여전히 크다.

제7장: 에이전트 인프라의 시대 (2025–2026)

멀티 에이전트 네트워크: 전문화된 에이전트들이 협업하는 구조

MCP: 에이전트의 USB (2024년 11월)

Anthropic이 2024년 11월에 발표한 MCP (Model Context Protocol)는 AI 에이전트가 데이터 시스템과 연결되는 방식을 표준화하는 오픈 표준이다.

이전까지의 문제: 개발자가 각 데이터 소스마다 커스텀 커넥터를 만들어야 했다. N개 에이전트 × M개 도구 = N×M개 통합. MCP는 이것을 N+M으로 줄였다.

기술 아키텍처는 LSP(Language Server Protocol)에서 영감을 받아 JSON-RPC 2.0 기반 클라이언트-서버 모델:

MCP Host AI 앱

MCP Host IDE

MCP Host 챗봇

MCP Protocol JSON-RPC 2.0

MCP Server DB

MCP Server API

MCP Server 파일시스템

12개월 만에 MCP는 사실상의 표준(de facto standard)이 되었다. 수천 개의 커뮤니티 빌트 서버, 모든 주요 언어의 SDK, OpenAI·Google DeepMind·Microsoft의 채택.

A2A: 에이전트의 HTTP (2025년 4월)

Google이 2025년 4월 Cloud Next에서 발표한 A2A (Agent-to-Agent Protocol)는 MCP가 해결하지 못한 문제를 다룬다: 에이전트끼리 어떻게 소통하는가.

MCP가 "에이전트 ↔ 도구" 연결이라면, A2A는 "에이전트 ↔ 에이전트" 연결이다:

	MCP	A2A
비유	USB (장치 연결)	HTTP (네트워크 통신)
역할	에이전트가 도구·데이터에 접근	에이전트가 서로 발견·소통·협업
관계	도구 레이어	에이전트 레이어

2025년 6월, Google이 A2A를 Linux Foundation에 기부했고, AWS, Cisco, Microsoft, Salesforce, SAP, ServiceNow 등 100개 이상의 기업이 지지했다.

AAIF: "에이전트의 W3C" 탄생 (2025년 12월)

2025년 12월 9일, Linux Foundation이 Agentic AI Foundation (AAIF)을 발표했다. 세 가지 창립 프로젝트:

MCP (Anthropic 기증)
goose (Block 기증)
AGENTS.md (OpenAI 기증)

플래티넘 멤버: AWS, Anthropic, Block, Bloomberg, Cloudflare, Google, Microsoft, OpenAI. IBM, Oracle, Salesforce 등이 추가 참여.

이것이 왜 역사적인가: 경쟁하는 AI 기업들이 공유 인프라 표준에 합의한 것은, 1994년 W3C 설립 이후 웹 생태계가 폭발적으로 성장한 것과 같은 궤적을 그릴 수 있다. AAIF는 에이전트 AI가 "특정 기업의 제품"에서 "산업 인프라"로 전환되는 분기점을 찍었다.

웹의 역사 → 에이전트 AI의 역사

1989 HTML 발명

1993 Mosaic 브라우저

1994 W3C 설립

1995 HTTP/1.0

1996~ 닷컴 붐

→

2022 ReAct 논문

2023 AutoGPT/BabyAGI

2025 AAIF 설립 ← 지금 여기

2025 MCP + A2A

2026~? 에이전트 생태계 확산

제8장: 2025–2026 에이전트 제품 격전지

주요 제품 타임라인

시기	제품	핵심
2025.1	OpenAI Operator	CUA 모델 기반 브라우저 에이전트, WebArena ~58%
2025.2	Claude Code (프리뷰)	코드베이스 읽기/수정, 멀티 에이전트 병렬 처리
2025.3	OpenAI Agents SDK	Swarm 후속, 멀티벤더 모델 지원
2025.4	Amazon Nova Act	브라우저 에이전트 SDK, ScreenSpot 0.939
2025.5	Claude Code GA	정식 출시
2025.11	Claude Opus 4.5	SWE-bench Verified 80.9%
2026.2	Claude Opus 4.6	에이전트 팀, 1M 컨텍스트

Claude Code: 에이전트의 킬러앱

Claude Code의 성장 궤적은 에이전트 AI의 현재 속도를 보여주는 가장 좋은 지표다:

2025년 2월 리서치 프리뷰 → 5월 정식 출시 → 10월 웹 버전
2025년 11월 연간 매출 $10억 도달, 2026년 1월 $20억 근접
2026년 3월 기준 전체 GitHub 커밋의 4%를 Claude Code가 작성
연말까지 20% 이상으로 전망

리드 에이전트가 서브 에이전트들을 조율하는 멀티 에이전트 병렬 처리 구조 — 이것은 민스키의 "마음의 사회", 셀프리지의 판데모니움, 그리고 CrewAI의 역할 기반 팀 모델이 하나의 제품에 수렴한 것이다.

Microsoft Copilot Agents: 160,000 조직의 400,000 에이전트

Microsoft는 Copilot Studio를 통해 커스텀 에이전트 생성을 민주화했다. 3개월 만에 16만 조직이 40만 개의 커스텀 에이전트를 만들었다. Agent 365는 에이전트 레지스트리, 접근 제어, 상호운용성을 위한 중앙 제어 평면을 제공한다.

실전 멀티 에이전트 사례

Wells Fargo: 35,000명의 은행원이 1,700개 절차를 30초 만에 접근 (기존 10분)
Klarna: 고객 문의 2/3 처리, 853명 직원 업무 대체, 연 $6,000만 절감
BMW: AI 로보틱 암으로 생산 라인 오류 40% 감소, 처리량 22% 증가
헤지펀드: 별도 에이전트가 어닝콜 모니터링, SEC 파일링 교차 검증, 대안 데이터 조회를 수행하고 오케스트레이터가 투자 브리프 종합

제9장: 현실 점검 — 에이전트 AI가 아직 넘지 못한 벽

36% 20단계 워크플로우 성공률 각 단계 95% 신뢰도 기준

4% Claude Code의 GitHub 커밋 비중 2026.3 기준, 연말 20%+ 전망

90% 레거시 에이전트 실패율 배포 수 주 내

$526억 2030년 에이전트 AI 시장 2024년 $52.5억 → CAGR 46.3%

복합 신뢰도 문제: 정의적 제약

에이전트 AI의 가장 근본적인 기술적 도전은 복합 신뢰도(compound reliability)다. 95% 신뢰도의 단계가 아무리 높은 수준처럼 보여도, 20단계를 연결하면 성공률은 36%로 떨어진다.

이것이 왜 AutoGPT가 실패했는지, 왜 2/3의 조직이 파일럿에 머물러 있는지, 왜 에이전트 시스템의 "유지보수 트랩"이 존재하는지를 모두 설명한다. 레거시 에이전트의 90%가 수 주 내에 실패하는 이유도 이 복합 신뢰도 문제에 뿌리를 두고 있다.

과도한 권한 부여

2025 AI Agent Index에 따르면 AI 에이전트는 일상적으로 필요한 것보다 10배 많은 권한을 보유한다. 90%의 에이전트가 과도한 권한을 가지고 있다. 이것은 보안의 관점에서 잠재적 시한폭탄이다.

비용의 현실

에이전트 운영의 현실적 비용 구조:

항목	월간 비용
LLM API 토큰 (비용의 70%)	$700~$ 3,500
벡터 DB 호스팅	$100~$ 2,000
임베딩 생성	$200~$ 1,000
모니터링·보안	$200~$ 1,500
합계	$1,000~$ 13,000

복잡한 에이전트는 월 500만~~1,000만 토큰을 소비한다. 개발 비용도 단순 에이전트 $15K~~ $30K에서 엔터프라이즈급$ 75K~$500K+까지 다양하다.

국제 AI 안전 보고서 2026의 경고

국제 AI 안전 보고서 2026은 에이전트 AI에 대해 구체적 우려를 제기했다:

평가 격차: 기존 평가 방법이 현실 세계 성능을 신뢰성 있게 반영하지 못함
다원적 정렬 문제: 바람직한 AI 행동에 대한 보편적 합의가 없음
무기화 위험: 여러 개발사가 생물학/화학 무기 개발 지원 가능성을 배제할 수 없어 추가 안전장치를 도입
범죄 악용: 범죄 집단과 국가 연계 공격자가 범용 AI를 적극 활용 중

제10장: 미래 — 에이전트 AI는 어디로 가는가

Gartner의 예측 타임라인

시점	예측
2026 말	엔터프라이즈 앱의 40%가 에이전트 내장 (현재 <5%)
2027	에이전트 AI 프로젝트의 40% 이상 취소 (비용·가치·리스크 문제)
2027	GenAI와 에이전트가 35년 만에 처음으로 주류 생산성 도구에 도전, $580억 시장 재편
2028	일상 업무 결정의 15%를 에이전트 AI가 자율 수행 (2024년 0%)
2028	엔터프라이즈 소프트웨어의 33%가 에이전트 AI 포함 (현재 <1%)
2029	에이전트 AI가 일반 고객 서비스 이슈의 80%를 자율 해결, 운영 비용 30% 절감
2035	에이전트 AI가 엔터프라이즈 소프트웨어 매출의 ~30% 차지, $4,500억+

여기서 주목할 지점: Gartner는 2027년까지 40% 이상의 에이전트 AI 프로젝트가 취소될 것이라고도 예측했다. 성장과 함께 대규모 실패도 동시에 일어날 것이라는 냉정한 전망이다. 모든 AI 에이전트 프로젝트가 성공하는 것이 아니라, 제대로 된 엔지니어링과 명확한 비즈니스 가치를 가진 프로젝트만이 살아남을 것이다.

물리 세계의 에이전트: 로보틱스와의 융합

2026년, 물리적 AI 시스템 — 로봇 에이전트, 자율 기계, AI 기반 실험실 — 이 시연 단계에서 프로덕션급 파일럿으로 전환되고 있다. Fei-Fei Li의 World Labs 등이 개발하는 월드 모델 아키텍처는 NeRF, 포인트 클라우드, 3D 데이터를 학습하여 공간, 기하학, 물리적 힘에 대한 일관된 이해를 약속한다.

소프트웨어 에이전트가 컴퓨터 화면에서 MCP와 A2A로 협업하듯, 물리적 에이전트가 현실 세계에서 같은 프로토콜로 협업하는 미래가 그려지고 있다.

에이전트 경제(Agent Economy)는 아직 아니다

솔직한 전망: 에이전트가 자율적으로 복잡한 다자간 거래를 처리하는 "에이전트 경제"는 2026년에는 일어나지 않을 것이다. "확인하는 사람에게 유용한" 것과 "혼자 맡겨도 되는" 것 사이의 간극은 데모가 보여주는 것보다 넓다.

하지만 프로토콜 인프라(MCP + A2A + AAIF)는 이미 자리를 잡았다. 오케스트레이션된 멀티 에이전트 워크포스 모델로의 전환은 가속되고 있다.

맺으며: 70년 호(弧)의 방향

이 글을 쓰면서 가장 인상적이었던 것은 에이전트 AI의 핵심 아이디어가 얼마나 오래전부터 존재했는가이다.

1959년 셀프리지의 판데모니움 → 2026년 멀티 에이전트 시스템
1971년 STRIPS의 계획 루프 → 2022년 ReAct의 추론-행동 루프
1986년 민스키의 마음의 사회 → 2025년 AAIF의 에이전트 사회
1987년 BDI의 믿음-욕구-의도 → LLM의 지식-목표-계획

70년간 변하지 않은 것은 구조적 원리다. 변한 것은 그 원리를 실현할 기반 기술이다. LLM이라는 범용 추론 엔진, 충분한 컴퓨팅 파워, 표준화된 프로토콜 — 이 세 가지가 마침내 갖춰지면서, 70년된 아이디어가 산업적 현실이 되고 있다.

1950s"기계가 생각할 수 있는가?"

↓

1970s최초의 계획하는 로봇 (Shakey/STRIPS)

↓

1980s전문가 시스템의 부상과 한계

↓

1990s소프트웨어 에이전트, 강화학습의 시작

↓

2010s음성 비서의 등장... 그리고 한계

↓

2016AlphaGo — AI가 인간을 넘을 수 있다

↓

2022ReAct — LLM 에이전트의 탄생

↓

2023AutoGPT — 아름다운 실패와 대중의 각성

↓

2024Computer Use — 인간의 인터페이스를 조작하는 AI

↓

2025MCP + A2A + AAIF — 프로토콜 표준화

↓

2026파일럿에서 프로덕션으로... ← 지금 여기

2026년은 "에이전트가 작동하는가?"에서 "에이전트를 어떻게 대규모로 안정적으로 배포하는가?"로 질문이 전환되는 해다. 흥분에서 실용주의로, 실험에서 엔지니어링으로.

코어닷투데이의 AI 아르스 키오스크, 의정지원 AI, Sharp-PINN — 이 모든 제품이 특정 도메인에서 AI 에이전트가 실제로 가치를 만들어내는 사례다. 화려한 범용 에이전트가 아니라, 정해진 범위에서 확실하게 작동하는 전문 에이전트. 복합 신뢰도 문제를 도메인 특화로 극복하고, Edge 배포로 비용과 데이터 주권 문제를 동시에 해결하는 접근.

70년의 여정이 가르쳐주는 것은, 에이전트 AI의 미래가 "더 똑똑한 하나의 에이전트"가 아니라 "더 잘 조직된 에이전트들의 사회"에 있다는 것이다. 민스키가 40년 전에 상상한 바로 그것이다.

다음 글에서는 MCP와 A2A 프로토콜을 실제로 구현하며 멀티 에이전트 시스템을 구축하는 엔지니어링 경험을 다뤄보겠습니다.

인사이트2026.03.14