coredot.today
도구는 많은데 왜 못 쓸까: '스킬'이 AI 에이전트의 새로운 단위가 되기까지
블로그로 돌아가기
에이전트 스킬Agent Skills스킬 증류VoyagerSkillGenBench절차적 지식Claude Skills

도구는 많은데 왜 못 쓸까: '스킬'이 AI 에이전트의 새로운 단위가 되기까지

AI에게 도구 100개를 쥐여줘도 일을 못 한다. '언제·어떻게 쓰는지'를 모르기 때문이다. 이 '절차의 공백'을 메우려 등장한 것이 바로 '스킬'이다. 2023년 마인크래프트의 Voyager에서 시작해 2026년 700만 개가 넘는 스킬이 쌓인 지금, 학계는 스킬을 AI의 새로운 '단위'로 보기 시작했다. 에이전트 스킬 종합 서베이의 분류 대지도(원문 그림 인용)와, 스킬 생성이 왜 그토록 어려운지 보여준 최신 벤치마크 논문들을 쉽게 풀어본다.

코어닷투데이2026-06-0638

한 줄로 시작하는 이야기

주방에 세계 최고급 조리도구 100개를 깔아놓는다고, 누구나 요리사가 되는 건 아니다. 무엇을, 언제, 어떤 순서로 쓰는지를 모르면 도구는 그냥 쇳덩이다.

2026년의 AI 에이전트가 정확히 이 문제에 부딪혔다. GPT든 Claude든 Gemini든, 검색·코드 실행·API 호출 같은 '도구(tool)'는 차고 넘치게 붙일 수 있다. 그런데 막상 복잡한 일을 시키면 — 매번 처음부터 더듬더듬 추론하다가 느려지고, 깨지고, 들쭉날쭉해진다.

도구를 잘 다루는 AI 에이전트가 빛나는 '스킬 카드'를 꺼내드는 모습

이 빈틈을 메우려고 등장한 개념이 스킬(Skill) 이다. 도구가 '무엇을 할 수 있는가'라면, 스킬은 '언제·어떻게·해야 하는가'까지 담은, 재사용 가능한 절차 묶음이다. 그리고 2026년 현재, 이 스킬은 단순한 기능을 넘어 "AI 능력의 새로운 단위" 로 다뤄지기 시작했다.

마침 학계가 이 흐름을 한 장의 지도로 정리했다. 《A Comprehensive Survey on Agent Skills》(arXiv 2605.07358)다. 이 글은 그 서베이의 분류 대지도(원문 그림을 그대로 인용한다)를 길잡이 삼아, 스킬이 어디서 와서 어떻게 진화하는지, 그리고 왜 스킬을 잘 만드는 게 그토록 어려운지를 최신 논문들과 함께 풀어낸다.

제1장: 도구는 많은데 — '절차의 공백'
제2장: 스킬이란 무엇인가 — S = (M, R, C)
제3장: 폭발하는 연구 지형 (2023→2026)
제4장: 스킬 분류 대지도 — 4가지 출처
제5장: 스킬의 일생 — 검색·선택·진화
제6장: 그런데, 스킬 만들기는 어렵다 (벤치마크)
제7·8장: 위협·거버넌스, 그리고 2026년의 의미

제1장: 도구는 많은데 — '절차의 공백'

서베이가 던지는 첫 번째 핵심 개념이 '절차의 공백(procedural gap)' 이다. 정의는 이렇다.

도구에 접근할 수 있다는 것이, 그 능력을 언제(when)·어떻게(how)·과연 써야 하는지(whether) 까지 알려주지는 않는다.

도구는 많지만 언제 어떻게 쓸지 모르는 AI vs 스킬 플레이북을 든 AI

에이전트가 짧은 단일 작업을 넘어 긴 호흡의 과제(long-horizon task) 를 맡게 되자 이 공백이 치명적으로 드러났다. 매 실행마다 백지에서 추론을 다시 짜는 방식은 서베이의 표현대로 "깨지기 쉽고(brittle), 지연이 크고(high latency), 신뢰할 수 없다(unreliable)."

!
문제: 매번 처음부터 추론
같은 종류의 일을 시켜도 에이전트는 매번 백지에서 '어떻게 하지?'를 다시 고민한다. 느리고, 토큰을 낭비하고, 결과가 들쭉날쭉하다.
+
해결: 절차를 '아티팩트'로 외부화
'이런 상황에선 이렇게 한다'는 노하우를 지속 가능한 파일로 박제해 두고, 필요할 때 꺼내 쓴다. 매번 추론하지 않고 '불러온다'.
결과: 빠르고 일관되고 재사용 가능
한 번 잘 만든 스킬은 수천 번 재사용된다. 라이브러리가 커질수록 에이전트는 더 강해진다 — 이것이 스킬 중심 에이전트의 핵심.

요약하면, 스킬은 '추론'을 '검색'으로 바꾸는 장치다. 매번 머리를 싸매는 대신, 검증된 절차를 불러와 실행한다. 이 단순한 전환이 2023년 이후 AI 에이전트 연구의 한 축을 통째로 만들어냈다.


제2장: 스킬이란 무엇인가 — S = (M, R, C)

서베이는 에이전트 스킬을 "경계가 분명한, 재사용 가능한 절차적 아티팩트" 로 정의하고, 깔끔한 3요소 수식으로 형식화한다.

에이전트 스킬의 형식적 정의

S = (M, ℛ, 𝒞)

M = 루트 지침 문서 (root instruction) — 핵심 노하우를 담은 SKILL.md 같은 본문

= 보조 리소스 — 참조 문서, 템플릿, 실행 가능한 스크립트

𝒞 = 적용 조건 (conditions) — 메타데이터, 설명, 임베딩 → '언제 이 스킬을 꺼낼지'

흥미로운 건 𝒞(적용 조건) 의 존재다. 이게 바로 1장의 '절차의 공백'을 메우는 부분이다. 스킬은 내용(M)만이 아니라 '언제 발동되어야 하는가'라는 메타정보를 함께 품는다.

인류의 스킬에서 에이전트의 스킬로

서베이의 첫 그림은 이 개념을 인류사 전체로 확장한다. 스킬은 사실 인간 문명의 축적 방식 그 자체였다는 것이다.

원문 Figure 1 — 인간의 스킬에서 에이전트 스킬로 이어지는 역사적 진화

▲ 원문 Fig. 1: From Human Skills to Agent Skills (arXiv:2605.07358)

불 피우기·도구 만들기(생존) → 수학·공학(지식) → 기계·대량생산(산업) → 컴퓨터·인터넷(디지털) → 도구 사용 AI(2023~) → 자율 에이전트 스킬(2024~현재). 인류가 노하우를 글·도면·매뉴얼로 외부화해 다음 세대에 물려줬듯, 이제 AI 에이전트도 자신의 노하우를 스킬로 외부화해 다른 에이전트에게 물려준다.

스킬의 세 가지 몸: 글·코드·하이브리드

서베이는 스킬을 리소스 구성에 따라 셋으로 나눈다.

스킬 표현(Representation)의 3가지 형태
Text-backed 글 기반 참조·예시·템플릿. 사람이 읽기 좋고 해석 가능 / 단, 실행 결정성은 낮음
Code-backed 코드 기반 실행 스크립트·함수. 반복 작업에 강하고 결정적 / 단, 버전·테스트·의존성 비용
Hybrid 혼합형 글 + 실행 아티팩트. 해석 가능성과 실행력을 모두 / 단, 조율 부담이 가장 큼

Anthropic의 Claude Skills(SKILL.md 폴더 표준)나 우리가 지난 글에서 다룬 COLLEAGUE.SKILL의 산출물이 모두 이 하이브리드 형태에 속한다.


제3장: 폭발하는 연구 지형 (2023 → 2026)

이 분야가 얼마나 빠르게 끓어올랐는지는 서베이의 두 번째 그림이 한눈에 보여준다. 2023년 4월부터 2026년 4월까지 누적 논문 수가 거의 지수적으로 폭증했다.

원문 Figure 2 — 2023~2026 에이전트 스킬 연구의 폭발적 성장

▲ 원문 Fig. 2: 에이전트 스킬 연구 성장 곡선과 대표 시스템 (arXiv:2605.07358)

곡선 위에 찍힌 이름들이 이 분야의 계보다.

2023 · 씨앗 Voyager(마인크래프트에서 코드 스킬을 라이브러리에 축적), Reflexion(실패를 말로 반성해 교정 규칙으로) — 모든 것의 출발점
2024 · 확장 ExpeL(성공·실패에서 교훈 추출), JARVIS-1, Synapse, Buffer of Thoughts — 경험을 절차로 packaging
2025~2026 · 폭발 SkillX·SkillWeaver·AutoSkill·Trace2Skill·Memento-Skills… 그리고 Claude Code·Manus·OpenClaw 같은 실제 제품이 스킬을 일급 기능으로 채택

연구만 끓는 게 아니다. 실제 스킬이 쌓이는 플랫폼도 폭증했다. 서베이가 집계한 대표 플랫폼들을 보자.

플랫폼축적된 스킬 규모
SkillsMP700,000+
SkillNet300,000+
Skills.sh90,000+
SkillHub80,000+
ClawHub40,000+

불과 3년 만에 수십~수백만 개의 스킬이 공개 플랫폼에 쌓였다. 스킬이 앱스토어의 '앱'처럼 거래되고 공유되는 생태계가 만들어진 것이다.


제4장: 스킬 분류 대지도 — 스킬은 어디서 오는가

서베이의 진짜 알맹이는 분류 대지도(taxonomy) 다. 표현·획득·검색/선택·진화라는 네 축으로 이 분야 전체를 한 장에 담았다. 원문 그림을 그대로 가져온다.

원문 Figure 3 — 에이전트 스킬 종합 분류 체계(taxonomy)

▲ 원문 Fig. 3: The taxonomy for agent skills (arXiv:2605.07358)

이 중 실무자가 가장 궁금해할 질문은 하나다. "그래서 스킬은 어떻게 만드나?" 서베이는 스킬의 출처를 네 갈래로 나눈다(획득, Acquisition).

스킬 라이브러리로 흘러드는 네 가지 출처 — 전문가·경험·과제·문서

스킬 획득의 4가지 출처(Acquisition Families)
① Human-Derived 사람에게서 전문가가 직접 만든 플레이북·SOP·안전 규칙. 품질 높지만 손이 많이 감 (예: COLLEAGUE.SKILL)
② Experience-Derived 경험에서 과거 실행 궤적에서 증류. 가장 활발히 연구됨 (Voyager·Reflexion·ExpeL·Trace2Skill)
③ Task-Derived 과제에서 지금 닥친 과제에 맞춰 즉석에서 생성·검증·보관 (CREATOR·ToolMakers·SkillWeaver)
④ Corpus-Derived 문서에서 매뉴얼·코드 저장소·사례에서 절차 추출 (AppAgent·DS-Agent·ToolBench)

가장 뜨거운 갈래: 경험에서 스킬 캐기

네 갈래 중 연구가 가장 몰린 건 ②경험 기반이다. "에이전트가 한 일을 보고, 그로부터 재사용할 노하우를 뽑는다"는 직관이 매력적이기 때문이다. 서베이는 이 과정을 네 단계 연산으로 정리한다.

Selection · 선별 수많은 궤적 중 쓸 만한 성공 사례를 고른다 (Voyager: 성공한 실행 코드만 보관)
Abstraction · 추상화 구체적 사례를 일반적 교훈으로 압축 (Reflexion·ExpeL·Trace2Skill)
Memory Org · 기억 정리 재사용하기 좋게 구조화 (Think-in-Memory·G-Memory·Nemori)
Packaging · 포장 워크플로를 호출 가능한 API/스킬로 패키징 (AWM·PolySkill·JARVIS-1)

여기서 주목할 신작이 Trace2Skill(arXiv 2603.25158)다. 이 논문의 통찰은 "궤적 전체를 통째로 스킬로 만들지 말라"는 것. 대신 궤적 안의 '국소적 교훈(trajectory-local lessons)' — 이를테면 "이 메뉴 구조는 이렇게 뚫는다" 같은 특정 결정 지점 — 만 콕 집어 추출한다. 그래야 다른 과제로 전이(transfer) 가 잘 되고 중복도 줄어든다. 통째로 vs 국소적, 작아 보이는 차이가 재사용성을 가른다.


제5장: 스킬의 일생 — 검색·선택·진화

스킬은 만들고 끝이 아니다. 라이브러리에 수십만 개가 쌓이면, 이제 "필요한 순간에 올바른 스킬을 찾아 쓰고, 낡으면 고치는" 문제가 생긴다. 서베이는 이를 검색·선택과 진화로 다룬다.

검색과 선택: 2단계 파이프라인

  • 검색(Retrieval) — 후보를 불러온다: 밀집 임베딩(Voyager), 키워드 매칭(SkillWeaver), 생성형 검색(ToolGen), 구조 인식(계층·의존성 기반).
  • 선택(Selection) — 실제로 무엇을 실행할지 결정한다: 맥락 인식, 스킬 조합(composition), 비용/효용 고려, 피드백 기반 재랭킹.

수십만 개 라이브러리에서 '의미는 비슷한데 상황엔 안 맞는' 스킬을 거르는 건 단순 유사도 검색으로는 부족하다. 그래서 상태·전제조건(precondition) 까지 보는 구조 인식 검색이 부상하고 있다.

진화: 스킬도 버전 관리된다

스킬은 살아 있는 아티팩트다. 서베이는 진화를 5단계로 정리한다(원문 Fig. 9).

원문 Figure 9 — 스킬의 단계적 진화 생명주기

▲ 원문 Fig. 9: Skill evolution through staged refinement (arXiv:2605.07358)

① Revision · 수정 내용 업데이트 (EvoSkill·AutoSkill)
② Validation · 검증 테스트·재생·롤백으로 '살아남을 스킬'을 거른다 (SkillWeaver·TroVE)
③ Policy Coupling · 정책 결합 스킬과 이를 부르는 컨트롤러를 함께 적응 (SkillRL·ARISE)
④ Repository Evolution · 저장소 진화 라이브러리 전체 규모로 갱신 (SkillX·SkillNet)
⑤ Runtime Governance · 런타임 거버넌스 신뢰 검사·폐기·감사 추적 (SkillRouter)

Task-Observer 메타 스킬에서 본 '스킬을 스스로 개선하는 스킬'이 바로 이 ①~② 단계의 자동화였음을, 이제 큰 지도 위에서 다시 확인할 수 있다.


제6장: 그런데, 스킬 만들기는 어렵다 (벤치마크가 말하는 진실)

여기까지 보면 "스킬 = 만능"처럼 들린다. 하지만 2026년의 최신 논문들은 정반대의 정직한 신호를 보낸다. "좋은 스킬을 자동으로 만드는 것은 생각보다 훨씬 어렵다."

좋은 스킬과 불량 스킬이 함께 쏟아지는 '스킬 공장' — 생성의 어려움

증거 1 — SkillGenBench: 생성 자체가 들쭉날쭉하다

SkillGenBench(arXiv 2605.18693)는 스킬을 쓰는 능력이 아니라 만드는 능력만 따로 떼어 측정한 최초의 벤치마크다. 결과는 "상당한 성능 편차(substantial performance variation)." 특히 출처가 다르면 실패 양상도 달랐다 — 코드 저장소에서 절차를 뽑을 때와 긴 문서에서 뽑을 때, 무너지는 지점이 서로 다르다. 결론은 단호하다. 재사용 가능한 스킬 증류는 아직 근본적으로 어려운 문제다.

증거 2 — '메트릭 자유도': 똑같은 궤적이 정반대 결과를 낸다

가장 충격적인 통찰은 《From Multi-Agent to Single-Agent》(arXiv 2604.01608)에서 나온다. 멀티 에이전트를 단일 스킬로 증류했을 때, 스킬 효과(lift)가 +28%부터 -2%까지 출렁였다. 즉 어떤 경우엔 도움이 되고 어떤 경우엔 오히려 해가 된다.

핵심 발견: 스킬의 유용성은 '과제'가 아니라 '평가 지표'에 달렸다

스킬 효과 범위: +28% (개선) ~ -2% (악화)

저자들이 제안한 'Metric Freedom(F)' 지표가 유용성을 강하게 예측: r = -0.85 (p<0.0001)

충격적 결론: "동일한 궤적이 경직된 지표에선 정반대의 효과를 낸다"

제안 기법 AdaSkill: 성능 유지하며 연산비용 최대 8배↓, 지연 최대 15배↓

이건 실무에 직접적이다. "스킬을 도입하기 전에, 당신의 평가 지표가 스킬을 받아들일 만큼 '유연한지'부터 점검하라." 지표가 경직돼 있으면, 아무리 좋은 스킬도 효과가 사라지거나 마이너스가 된다.

증거 3 — Skill-SD: 제대로 하면 크게 오른다

물론 잘 설계하면 효과는 크다. Skill-SD(arXiv 2604.10674)는 에이전트 자신의 성공 궤적을 자연어 '스킬'로 요약해, 그것을 교사 모델에만 슬쩍 알려주고 학생 모델은 원래 프롬프트로 배우게 하는 '스킬 조건부 자기증류'를 제안했다. 결과(개선폭)는 인상적이다.

Skill-SD vs OPD · AppWorld
+42.1%
Skill-SD vs OPD · Sokoban
+40.6%
Skill-SD vs GRPO · AppWorld
+14.0%
Skill-SD vs GRPO · Sokoban
+10.9%

※ 기존 강화학습 기법(GRPO·OPD) 대비 성능 개선폭. 막대는 +45% 기준 상대 길이.

세 논문을 종합하면 메시지는 명확하다. 스킬은 강력하지만 자동화는 어렵다. 그리고 효과는 '무엇을 어떻게 측정하느냐'에 크게 좌우된다. 'AI에게 시키면 알아서 좋은 스킬이 나온다'는 환상은 버려야 한다.


제7장: 보이지 않는 위협 — 스킬 공급망과 거버넌스

스킬이 앱처럼 거래되는 생태계에는 앱과 똑같은 그림자가 따라온다. 서베이가 경고하는 대표적 위협이 'PoisonedSkills(오염된 스킬)' 다. 누군가 악의적이거나 낡은 스킬을 공개 라이브러리에 올리고, 에이전트가 그걸 검증 없이 불러 실행한다면? 이것은 소프트웨어의 공급망 공격(supply chain attack) 과 정확히 같은 구조다.

스킬 생태계의 3대 미해결 과제
상호운용성 플랫폼마다 스킬 포맷이 제각각 — 표준화 없이는 '내 스킬'이 다른 호스트에서 안 돈다
안전·검증 선의의 업데이트와 악의적·오염된 업데이트를 구분하기. 실행 전 신뢰 검사가 필수
장기 거버넌스 라이브러리가 커질수록 폐기·감사·출처 추적 같은 '능력 관리'가 핵심 과제로

여기서 COLLEAGUE.SKILL 글에서 강조했던 '거버넌스를 처음부터 설계의 바닥에 둔다' 는 원칙이 다시 빛난다. 검사 가능성(inspectable)·교정 가능성(correctable)·롤백·출처 추적은 멋부림이 아니라, 스킬 생태계가 신뢰 위에서 지속되기 위한 필수 인프라다.


제8장: 2026년, 스킬이 AI의 '단위'가 된다

이 모든 흐름을 한 발 물러나 보면, 거대한 그림이 보인다. AI의 능력을 담는 '기본 단위'가 바뀌고 있다는 것이다.

시대능력의 단위비유
~2022모델 가중치(weights)능력이 모델 안에 '학습'으로 박제됨 — 바꾸려면 재훈련
2023~2024프롬프트 · 도구(tools)능력을 말과 API로 확장 — 단, 매번 다시 조립
2025~2026스킬(skills)능력을 '검사·재사용·공유·진화 가능한 아티팩트'로 외부화 — 앱스토어처럼

이 변화의 함의는 크다. 능력이 모델 가중치 안에 갇혀 있을 때는, AI를 개선하려면 거대한 재훈련이 필요했다. 하지만 능력이 스킬이라는 외부 아티팩트가 되는 순간 — 누구나 만들고, 읽고, 고치고, 거래하고, 물려줄 수 있게 된다. 우리가 이 시리즈에서 다룬 흐름들이 모두 이 한 점으로 모인다.

Voyager (2023): 경험을 스킬 라이브러리로
Task-Observer: 스킬을 스스로 개선하는 스킬
COLLEAGUE.SKILL: 사람의 전문성을 스킬로 증류
서베이 (2026): 스킬을 'AI의 새 단위'로 체계화

마치며: 실무자가 가져갈 세 가지

1
'도구'가 아니라 '스킬'로 생각하라
에이전트에 API만 잔뜩 붙이지 말고, '언제·어떻게 쓰는지'를 담은 스킬(SKILL.md)로 노하우를 외부화하라. 반복 작업일수록 효과가 크다.
2
자동 생성을 맹신하지 말고, 측정부터 점검하라
스킬 효과는 +28%~-2%로 출렁인다. 도입 전 평가 지표의 '유연성'을 확인하고, 생성된 스킬은 반드시 검증·롤백 체계를 갖춰라.
3
스킬 공급망을 보안 문제로 다뤄라
외부 스킬은 외부 패키지와 같다. 출처·검증·감사·폐기 — 거버넌스를 처음부터 설계에 넣어야 신뢰가 지속된다.

2026년, AI의 진짜 경쟁력은 '얼마나 큰 모델'이 아니라 '얼마나 좋은 스킬을 만들고, 고르고, 진화시키는가' 로 옮겨가고 있다. 도구는 모두가 가진다. 차이는, 그 도구를 언제·어떻게 쓸지 아는 스킬에서 갈린다.


참고 자료 / 출처