한 줄로 시작하는 이야기
금요일 오후, 8년 차 시니어 엔지니어 김 책임이 마지막 인사를 했다. 다음 주부터 그의 자리는 비어 있다.
월요일이 되자 팀은 깨달았다. 사라진 건 한 사람의 노동력이 아니었다. 그가 코드 리뷰에서 항상 가장 먼저 보던 것(인증 처리 → 입력 검증 → 속도 제한 → 응답 스키마 → 민감정보 노출 순서), 새벽 장애 때 "이건 캐시부터 의심하라"던 직감, 고객 화난 메일에 답할 때의 미묘한 톤 — 이 모든 것이 그의 머릿속에서만 살아 있었고, 그와 함께 걸어 나갔다.

이것은 모든 조직이 겪는 가장 비싼 손실이다. 그런데 2026년 5월, 상하이 인공지능 연구소(Shanghai AI Laboratory)의 연구진이 흥미로운 질문을 던졌다.
"떠나는 동료의 판단을, 검사하고 고칠 수 있는 스킬 파일로 증류해 남길 수 있다면?"
그 답이 바로 이 글의 주인공, COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation(arXiv:2605.31264)이다. 발표 시점에 이미 GitHub 별 약 1.85만 개, 갤러리에 215개의 스킬, 165명의 기여자가 모인 오픈소스 시스템이다.
이 글은 "사람을 증류한다"는 도발적인 발상이 왜 나왔는지(제1장), 그게 정확히 무슨 개념인지(제2장), 그 아이디어가 어디서 왔는지(제3장·계보), 그리고 시스템이 어떻게 작동하는지를 원문의 설계도 그대로(제4~7장) 따라가며, 2026년 현재 이 기술이 어떤 자리에 서 있는지(제8장)까지 정리한다.
제1장: 떠나는 동료, 사라지는 판단 — 왜 이 문제인가
↓
제2장: "사람을 증류한다"는 발상 — person-grounded skill
↓
제3장: 학술적 계보 — ReAct에서 Voyager를 거쳐 여기까지
↓
제4장: 아키텍처 정밀해부 (원문 설계도)
↓
제5장: 세 가지 얼굴 — 동료·유명인·관계
↓
제6장: 살아있는 스킬 — 고치고 되돌리는 생명주기
↓
제7장 & 8장: 1.85만 별의 생태계와 2026년의 자리
제1장: 떠나는 동료, 사라지는 판단 — 왜 이 문제인가
문제의 정체: 글로 적힌 적 없는 지식
소프트웨어 조직에는 "버스 지수(bus factor)"라는 섬뜩한 농담이 있다. "이 사람이 버스에 치이면 프로젝트가 멈추는, 그런 사람이 몇 명인가?" 버스 지수가 1이라는 건, 단 한 명의 머릿속에만 들어 있는 지식에 조직이 의존하고 있다는 뜻이다.
문제는 이 지식이 대부분 매뉴얼로 쓰여 있지 않다는 데 있다. 헝가리 출신 철학자 마이클 폴라니(Michael Polanyi)는 1966년 이를 암묵지(tacit knowledge)라 불렀다. 그의 유명한 문장은 이렇다.
"우리는 우리가 말할 수 있는 것보다 더 많이 안다(We know more than we can tell)."
자전거 타는 법을 글로 완벽하게 적을 수 없듯이, 베테랑의 판단도 그렇다. COLLEAGUE.SKILL 논문은 이 지점을 정확히 찌른다. 논문의 표현을 그대로 옮기면 —
"한 사람이나 역할에 묶인 실행 가능한 지식(actionable knowledge)은 보통 깔끔한 지침으로 쓰여 있는 게 아니라, 이질적인 흔적들(heterogeneous traces) 속에 흩어져 있다."

그 '흔적'은 어디에 흩어져 있나
논문이 드는 예시는 우리에게 너무 익숙하다.
전문가의 판단이 숨어 있는 '흔적'들
코드 주석 · 리뷰 코멘트
"여기 입력 검증 빠졌어요"를 수백 번 반복한 그 사람만의 체크리스트
장애 노트 · 채팅 결정
새벽 인시던트 슬랙 스레드에 남은 "이 경우엔 롤백 먼저" 같은 직감
설계 문서 · 이메일
왜 이 아키텍처를 택했는지, 고객에게 어떤 톤으로 답하는지
이 흔적들은 흩어져 있을 뿐 아니라, 검색해서 찾아오는 것만으로는 부족하다. 논문이 말하는 진짜 도전은 따로 있다.
"LLM 에이전트에게 도전은 이 자료들을 단순히 검색(retrieve) 하는 것이 아니라, 선택된 증거를 재사용 가능한 스킬 패키지로 증류(distill) 하되, 그 내용·출처·교정 이력·사용 한계가 계속 들여다보이게(remain visible) 만드는 것이다."
여기서 핵심 단어 두 개가 등장한다. 증류(distill) 와 들여다보임(visible). 그냥 복사가 아니라 정수만 뽑아내고, 그렇게 만든 결과물이 블랙박스가 아니라 투명해야 한다는 것. 이 두 단어가 COLLEAGUE.SKILL의 철학 전체를 압축한다.
왜 '지금' 이 문제가 풀 수 있는 문제가 되었나
암묵지 손실은 수십 년 된 문제다. 그런데 왜 하필 2026년에 이게 자동화 가능한 공학 문제가 되었을까? 두 가지가 맞물렸다.
- LLM이 비정형 흔적을 읽을 수 있게 되었다. 채팅 로그, 스크린샷, PDF, 코드 주석을 그대로 넣어도 의미를 추출한다.
- '스킬'이라는 표준 포맷이 생겼다. 2026년,
SKILL.md 파일 하나를 중심으로 한 Agent Skills 표준이 자리잡으면서, 추출한 지식을 "에이전트가 곧바로 불러 쓸 수 있는 형태"로 담을 그릇이 마련됐다.
읽을 능력(LLM)과 담을 그릇(Skill 포맷)이 동시에 준비되자, "사람의 흔적 → 쓸 수 있는 스킬"이라는 파이프라인이 비로소 현실이 된 것이다. 그릇 이야기는 제3장에서 자세히 다룬다.
제2장: "사람을 증류한다"는 발상 — person-grounded skill
가장 먼저 짚어야 할 오해: 이건 '사람 복제'가 아니다
"사람을 스킬로 만든다"는 말을 들으면 누구나 영화 같은 장면을 떠올린다. 떠난 동료의 디지털 클론이 채팅창에 나타나 그 사람처럼 말하는 모습. 논문은 시작부터 이 오해를 단호하게 거부한다.
"이것은 정체성 대체(identity replacement)를 주장하지 않으며, 생성된 객체를 사람이 아니라 편집 가능한 기술 아티팩트(editable technical artifact) 로 다룬다."
이 구분이 결정적이다. 목표는 "진짜 그 사람이라면 모든 질문에 뭐라고 답할까"를 흉내 내는 무한한 대화 모델이 아니다. 목표는 선택된 실무 관행, 멘탈 모델, 소통 규칙, 사용 한계를 담은 경계가 분명한(bounded) 패키지다.

논문은 이 대상을 person-grounded skill(사람에 근거한 스킬) 이라 부른다. "사람에 근거한다"는 건, 지침이 실제 그 사람에 관한 증거에 뿌리를 두되, 출처·사용·거버넌스의 명시적 제약 안에 머문다는 뜻이다.
한 줄짜리 정의: S = (A, M, L)
논문은 이 문제를 깔끔한 수식 하나로 정의한다. 가벼운 프로필 p, 출처 범위 c, 그리고 출처 자료 묶음 D = {d₁, …, dₙ}가 주어지면, 시스템은 스킬 패키지를 만든다.
S = (A, M, L)
A = 생성된 파일 묶음 (실제 스킬 콘텐츠)
M = 기계가 읽는 메타데이터와 설치 정보
L = 생명주기 상태 — 버전, 수정 시각, 교정 횟수, 롤백 이력
평범해 보이는 이 정의의 묘미는 L에 있다. 보통의 프롬프트나 페르소나에는 "버전"이나 "롤백 이력" 같은 게 없다. 그런데 COLLEAGUE.SKILL은 결과물을 처음부터 소프트웨어처럼 — 버전이 있고, 고친 기록이 남고, 되돌릴 수 있는 것으로 정의한다.
다섯 가지 성질: 좋은 person-grounded skill의 조건
논문은 잘 만들어진 스킬이 갖춰야 할 다섯 가지 운영 속성을 제시한다. 이게 사실상 이 시스템의 헌법이다.
person-grounded skill 의 5대 속성
Portable
이식성
스킬 호환 에이전트라면 평범한 스킬 메커니즘으로 그대로 불러올 수 있다
Inspectable
검사 가능성
추출된 규칙·예시·한계·메타데이터를 사용 전에 사람이 읽을 수 있다
Composable
조합성
전체 / 업무만 / 성격만 — 세 가지 진입점을 따로따로 호출할 수 있다
Correctable
교정 가능성
새 증거나 사용자 피드백으로, 이전 상태를 보존하면서 패키지를 갱신한다
Governable
통제 가능성
메타데이터·출처 경계·고지로 삭제·공유 결정·안전 검토를 뒷받침한다
논문은 이 다섯 속성 덕분에 자기들의 주장이 '행동 복제(behavioral cloning)'보다 좁다고 분명히 선을 긋는다. "우리는 생성된 스킬이 사람을 충실히 재현한다고 주장하지 않는다. 선택된 흔적이 명시적인 파일·메타데이터·진입점·교정 기록·생명주기 연산을 갖춘 스킬 호환 아티팩트로 변환될 수 있다고 주장할 뿐이다."
겸손해 보이는 이 좁은 주장이 오히려 강력하다. 인간 피험자 연구나 작업 성능 평가가 나오기 전이라도, 아티팩트 자체는 지금 당장 검사하고 감사할 수 있기 때문이다.
제3장: 학술적 계보 — ReAct에서 Voyager를 거쳐 여기까지
COLLEAGUE.SKILL은 하늘에서 떨어지지 않았다. 이 발상은 "에이전트가 능력을 모델 가중치 안에 가두지 말고 밖으로 꺼내자"는 3년간의 흐름 위에 서 있다. 계보를 따라가 보자.
2023 · ReAct
추론(reasoning)과 행동(acting)을 번갈아 엮다 — 에이전트가 '생각하며 도구를 쓰는' 패러다임의 출발
2023 · Toolformer
언제·어떻게 API를 호출할지 모델이 스스로 학습 — 능력을 외부 도구로 확장
2023 · Reflexion · Self-Refine
피드백을 언어로 받아 다음 행동을 고친다 — '교정'이라는 개념의 씨앗
2023 · Voyager
마인크래프트에서 실행 가능한 코드 스킬을 '라이브러리'에 쌓아 새 과제를 푼다 — 스킬 축적의 원형
2026 · SkillX · SkillGen · AutoSkill
에이전트 실행 궤적에서 스킬을 자동 증류·정제 — '궤적 → 스킬'의 본격화
2026 · COLLEAGUE.SKILL
사람의 흔적을 '능력'과 '행동'으로 분리해 증류, 교정·롤백·다중 호스트 설치까지
그릇이 먼저 생겼다: Agent Skills 표준
계보에서 빠뜨릴 수 없는 게 그릇이다. 2026년, Agent Skills 표준은 스킬을 "SKILL.md 파일을 중심으로 한 폴더" 로 정의했다. 메타데이터와 지침을 담고, 선택적으로 스크립트·참조·자산을 곁들인다. Anthropic의 Claude Code 역시 스킬을 재사용 가능한 능력 단위로 다룬다.
이 표준의 핵심은 점진적 공개(progressive disclosure) 다. 에이전트는 처음엔 스킬의 이름·설명만 보고, 실제로 그 스킬이 필요해질 때 비로소 상세 지침을 로드한다. COLLEAGUE.SKILL은 바로 이 포맷을 채택한다 — 새로운 스킬 추상화를 발명하는 게 아니라, "사람의 리뷰 기준·멘탈 모델·소통 제약을, 이 표준 그릇에 어떻게 담을 것인가" 를 묻는다.
사촌들과의 차이: 무엇이 COLLEAGUE.SKILL을 다르게 만드나
2026년에 비슷한 시도가 여럿 나왔다. 논문은 자신의 좌표를 이렇게 정리한다.
| 시스템 | 무엇을 증류하나 | 독특한 강조점 |
|---|
| Voyager | 에이전트의 실행 코드 | 확장되는 스킬 라이브러리에 저장·검색 |
| SkillX | 원시 에이전트 궤적 | 전략·기능·원자 스킬로 계층화, 실행 피드백으로 정제 |
| SkillGen | 성공 및 실패 궤적 | 감사 가능한 스킬, 실패를 고칠 수도 새 회귀를 부를 수도 있는 '개입'으로 평가 |
| AutoSkill | 대화·상호작용 궤적 | 평생 개인화 에이전트를 위한 재사용 스킬 |
| COLLEAGUE.SKILL | 사람의 흔적 | 능력과 행동을 의도적으로 분리, 교정·롤백 노출, 다중 호스트 설치·공유 |
이전 글을 읽은 독자라면 — 우리가 다뤘던 Task-Observer 메타 스킬을 기억할 것이다. 그건 "스킬이 쓰이는 현장을 관찰해 스킬을 스스로 개선" 하는, 에이전트 자신의 자기개선 이야기였다. COLLEAGUE.SKILL은 그 옆자리에 있다. 개선 대상이 에이전트 자신이 아니라 사람의 전문성이라는 점만 다르다. 둘 다 "사용 흔적 → 더 나은 스킬"이라는 같은 강에서 갈라진 두 지류다.
이렇게 COLLEAGUE.SKILL은 역할-연기(role-playing, Character-LLM·RoleLLM·SOTOPIA)나 개인화(LaMP·PersonaAgent) 전통보다 의도적으로 더 좁다. 무한히 대화하는 가짜 사람이 아니라, 규칙·소통 제약·멘탈 모델·한계·교정 이력을 담은, 검토 가능한 person-grounded 스킬 아티팩트를 만든다.
제4장: 아키텍처 정밀해부 — 원문 설계도를 따라서
이제 핵심이다. COLLEAGUE.SKILL은 실제로 어떻게 사람의 흔적을 스킬로 바꿀까? 논문의 Figure 1을 그대로 가져왔다. 다섯 단계의 파이프라인과, 그 아래를 가로지르는 거버넌스 레일(Governance rail) 이 한눈에 들어온다.

▲ 원문 Figure 1: COLLEAGUE.SKILL Expert Distillation Pipeline (arXiv:2605.31264)
다섯 단계, 하나씩 뜯어보기
① Trace intake (흔적 수집)
문서·이메일·스크린샷·채팅·리뷰·공개자료를 모은다. 로컬 지식 디렉터리(`local knowledge/{slug}`)로 정규화하고, 출처 경계(source boundary)를 유지한다
② Preset router (프리셋 라우터)
colleague(동료) / relationship(관계) / celebrity(유명인) 중 하나를 고른다. 프리셋이 프롬프트·저장 위치·명령 의미를 결정한다
③ Dual distill (이중 증류)
capability track과 persona track으로 나눠 증류 → `work.md` + `persona.md`라는 분리된, 각각 검사 가능한 뷰를 만든다 ★ 이 시스템의 심장
④ Artifact writer (아티팩트 작성)
`SKILL.md` + `manifest.json` + `meta.json`을 schema v3 패키지로 렌더링. 서브스킬과 슬래시 명령까지 생성
⑤ Productization (제품화)
에이전트 호스트에 설치 / 호출 / 공유. 권한이 되면 선택적 갤러리 배포까지
그리고 이 다섯 단계 아래 를 관통하는 거버넌스 레일이 있다. 로컬 우선 저장(local-first storage) · 출처와 증거(provenance + evidence) · 교정 로그(correction log) · 버전과 롤백(version / rollback) · 선택적 갤러리. 즉 거버넌스는 마지막에 덧붙이는 옵션이 아니라, 모든 단계를 떠받치는 바닥으로 설계됐다. 논문이 가장 자랑스러워하는 설계 결정이다.
심장부: 왜 '능력'과 '행동'을 둘로 쪼개나
③단계의 이중 표현(dual representation)이 이 논문의 가장 독창적인 아이디어다. 생성된 아티팩트는 두 개의 분리된 문서로 쪼개진다.
Dual Representation — 한 사람을 두 트랙으로
work.md (capability track)
능력 · 무엇을 하는가
책임, 워크플로, 기술 표준, 리뷰 기준, 의사결정 휴리스틱, 과거 업무에서 얻은 교훈
persona.md (behavior track)
행동 · 어떻게 하는가
경계가 분명한 행동 제약, 표현 선호, 상호작용 규칙, 그리고 교정 기록
왜 굳이 나눌까? 논문의 통찰이 날카롭다.
"많은 페르소나 시스템의 실패는 세 가지 다른 것을 뒤섞는 데서 온다 — 사실적 지식(factual knowledge), 절차적 판단(procedural judgment), 그리고 표면적 말투(surface tone)."
이 셋을 한 덩어리로 뭉치면, "이 사람의 말투"만 빌리고 싶은데 그의 (낡았을지 모를) 기술 판단까지 딸려오거나, 반대로 판단만 쓰고 싶은데 특유의 말투가 어색하게 묻어난다. COLLEAGUE.SKILL은 이 셋을 파일 수준에서 분리해, 전체 / 능력만 / 성격만 세 가지로 따로 호출할 수 있게 한다(앞서 본 'Composable' 속성). 동료가 떠났을 때 우리가 정말 원하는 건 대개 그의 말투가 아니라 판단인데, 이 설계는 바로 그걸 골라 쓸 수 있게 해준다.
결과물 계약서: 어떤 파일들이 나오나 (원문 Table 1)
작성기(writer)가 최종적으로 내놓는 산출물은 논문의 Table 1에 '런타임 아티팩트 계약(runtime artifact contract)'으로 명시돼 있다. 그대로 옮긴다.
| 아티팩트 | 주 소비자 | 내용 |
|---|
SKILL.md | 에이전트 런타임, 사용자 | 호출 가능한 통합 스킬 — 프론트매터 + 능력 트랙 + 페르소나 트랙 + 운영 규칙 |
work.md | 사용자, 갱신기 | 편집 가능한 능력 문서: 절차·표준·휴리스틱·과제 패턴 |
persona.md | 사용자, 갱신기 | 편집 가능한 행동 문서: 말투·상호작용 자세·경계·교정 로그 |
work_skill.md | 에이전트 런타임 | `work.md`에서 생성된 능력만 진입점 |
persona_skill.md | 에이전트 런타임 | `persona.md`에서 생성된 성격만 진입점 |
manifest.json | 설치기, 갤러리 | 진입점·아티팩트 목록·호환 런타임·슬래시 명령·툴체인 메타데이터 |
meta.json | 생명주기 도구 | 스키마·출처·생명주기 버전·교정 횟수·호환 필드 |
이 설계는 Agent Skills 표준과 정확히 맞물린다. SKILL.md가 필수 진입점이고, 나머지는 필요할 때만 로드되는 점진적 공개 방식이다. 핵심은 — 모든 게 사람이 열어볼 수 있는 파일이라는 것. 숨겨진 메모리나 불투명한 프롬프트가 아니다.
제5장: 세 가지 얼굴 — 동료·유명인·관계
COLLEAGUE.SKILL의 영리한 점은, 같은 증류 파이프라인을 세 가지 응용 프리셋(application preset) 으로 확장한다는 것이다. 논문의 Figure 2가 이 구조를 보여준다 — 공유된 파이프라인 하나가, 증거·거버넌스·호출 방식이 다른 세 갈래로 뻗는다.

▲ 원문 Figure 2: Application Preset Tree (arXiv:2605.31264)
세 프리셋은 별도의 시스템이 아니라 같은 아티팩트 워크플로의 도메인 특화다. 새 설정이 필요하면 프로그램을 새로 짜는 게 아니라 프롬프트·출처 경계·동의 기본값만 바꾼 설정(configuration) 으로 추가된다. 미래에 self, author, team 같은 프리셋도 같은 방식으로 붙일 수 있다.

| 프리셋 | 증거(Evidence) | 거버넌스(Governance) | 런타임(Runtime) |
|---|
colleague 동료 (기본) | 기업/로컬 업무 흔적: 문서·리뷰·결정·인시던트 | 조직적 접근, 인수인계 효용, 업무만 진입점 | 팀 재사용을 위한 전체/업무만/성격만 스킬 |
celebrity 유명인 | 공개 1인칭 흔적: 저작물·인터뷰·연설 | 출처 경계, 인용 규율, 비공개 추론 금지 | 증거 한계를 드러내는 연구 지향 스킬 |
relationship 관계 | 사용자가 제공한 사적 상호작용 흔적 | 로컬 통제, 삭제, 비공개 기본값 | 경계 있는 상호작용 규칙의 로컬 편집 상태 |
각 프리셋이 강조하는 게 다르다는 점에 주목하자.
- colleague(동료) — 가장 구체적이고 사회적으로 유용한 출발점. 기업 흔적이라 접근 통제와 조직 동의가 아티팩트 경계를 지배한다. 흥미로운 건, 말투(behavior)는 옮기지 않으면서 리뷰 기준(work rules)만 적용할 수 있다는 점. 동료의 까다로운 리뷰 체크리스트는 원하지만 그의 말버릇은 필요 없을 때, 업무 규칙과 행동 제약을 분리해 둔 게 빛난다.
- celebrity(유명인) — 공개 증거로만 만든 확장. 6차원 연구 패스와 품질 검사로 멘탈 모델·인용·명시적 경계를 강조한다. 생성된 스킬은 증거가 빈약한 지점을 스스로 표시해야 하고, 실제 그 사람인 척해서는 안 되며, 기업 사례와 구분되게 남아야 한다.
- relationship(관계) — 가장 민감한 사적 영역. 핵심은 "에이전트가 사람을 대체할 수 있다"가 아니라, 사적 상호작용 흔적을 불투명한 프롬프트가 아니라 로컬에 있고, 편집 가능하고, 삭제 가능한 상태로 표현할 수 있다는 것. 동의·보존·접근 통제·선택적 공유라는 더 강한 가정이 붙는다.
논문은 relationship 프리셋을 무제한 시뮬레이션의 보증이 아니라, 거버넌스 표면을 강조하기 위한 사례로 신중하게 포함시킨다. 삭제·교정·로컬 소유·비공개 기본값을 1급 아티팩트 요구사항으로 만든다는 점에서다.
제6장: 살아있는 스킬 — 고치고 되돌리는 생명주기
여기서 COLLEAGUE.SKILL이 단순한 '추출기'와 결정적으로 갈린다. 생성된 아티팩트는 불완전할 것으로 전제되며, 시간이 지나며 고쳐진다. 논문의 Figure 3이 이 생명주기 루프를 보여준다 — 위쪽 런타임 레인과 아래쪽 갱신(update) 레인이 맞물려 돈다.

▲ 원문 Figure 3: Versioned Skill Lifecycle (arXiv:2605.31264)
자연어로 고친다: 교정 핸들러
가장 인상적인 건 교정(correction) 방식이다. 코드를 고치는 게 아니라 말로 고친다.
사용자 피드백
"그는 그렇게 말하지 않을 거야 (he would not say that)" / "그녀라면 여기서 푸시했을 거야 (she would push back here)"
핸들러 판단
업무 내용에 관한 교정이면 → 관련 섹션에 Markdown 패치. 표현/상호작용에 관한 거면 → 정규화된 교정 기록 생성
교정 기록 구조
{ scene(상황), wrong(틀린 반응), correct(올바른 반응) } 세 칸으로 저장된다
이 {scene, wrong, correct} 구조가 핵심이다. "어떤 상황에서, 무엇이 틀렸고, 무엇이 옳은가"를 구조화해 쌓아두니, 같은 실수가 반복되지 않는다. 패치의 동작 규칙도 명확하다 — 레벨 2 제목(##)이 일치하면 해당 섹션을 교체하고, 일치하는 섹션이 없으면 덧붙인다.
그리고 작성기는 교정할 때마다 이렇게 한다.
1. 보관
현재 버전을 아카이브에 저장 (되돌릴 지점 확보)
2. 적용
패치나 교정을 적용
3. 증가
생명주기 버전을 +1
4. 재생성
파생 아티팩트(서브스킬 등)를 전부 다시 만든다
버전 관리자는 보관된 버전을 나열하고, 현재 아티팩트를 백업하고, 이전 버전으로 롤백하고, 오래된 아카이브를 정리할 수 있다. 영락없이 git을 닮았다 — 다만 대상이 코드가 아니라 사람의 판단이라는 점만 다르다. 이 "되돌릴 수 있음"이야말로, 잘못 증류된 판단이 조용히 굳어버리는 사고를 막는 안전장치다.
제7장: 1.85만 별의 생태계 — 그리고 정직한 한계
COLLEAGUE.SKILL은 논문으로 끝나지 않고 공개 사이트와 갤러리를 갖춘 오픈소스 저장소로 배포됐다. 논문의 Figure 4가 2026-05-28 기준 관측된 공개 지표를 정리한다.

▲ 원문 Figure 4: Public Deployment Surface (arXiv:2605.31264)
2026-05-28 관측 지표
~18.5k
GitHub 별 (forks ~1.8k · commits 104)
215 + 55
갤러리의 스킬 215개 · 메타 스킬 55개
165
커뮤니티 기여자
>100k
갤러리 누적 별 (자릿수 규모 집계)
갤러리는 다운스트림 공유 계층이다. 생성된 스킬은 로컬에 머물 수도, 에이전트 호스트에 설치될 수도, 공개 권한이 있을 때 공유 가능한 패키지로 제출될 수도 있다. 즉 갤러리는 스킬이 "로컬 사용 → 통제된 설치 → (적절하면) 커뮤니티 공유" 로 이동하는 경로를 보여준다.
저자들의 비범한 정직함
여기서 이 논문이 신뢰를 얻는 대목이 나온다. 저자들은 이 화려한 숫자를 자랑하지 않는다. Figure 4 캡션에 직접 못박는다.
"이 숫자들은 저장소 활동·갤러리 규모·누적 공개 신호를 요약한다. 이들은 배포와 분포의 표면(deployment and distribution surface)을 나타낼 뿐, 작업 성능·행동 충실도·채택 품질 지표가 아니다."
>100k 누적 별조차 "공개 분포 표면의 증거로만 사용하며, 채택 품질이나 과제 영향력으로 쓰지 않는다"고 명시한다. 한마디로 — "우리가 만든 건 많이 퍼졌지만, 그게 곧 '잘 작동한다'는 증명은 아니다." AI 논문이 흔히 빠지는 과대 포장의 정반대다.
무엇을 주장하고, 무엇을 주장하지 않나
논문의 한계 절은 이 정직함의 연장선이다.
!
주장하지 않는 것
생성된 스킬이 사람을 충실히 재현한다는 것, 정체성을 대체한다는 것, 동의의 대리물이라는 것 — 모두 주장하지 않는다. 행동 충실도(behavioral fidelity)는 풀리지 않은 문제로 남겨둔다.
+
실제로 주장하는 것
선택된 사람의 흔적이 이식·검사·교정·버전·설치·삭제가 가능한 '아티팩트'로 변환될 수 있다는 것. 이건 인간 피험자 연구 이전에도 지금 당장 감사할 수 있는 구체적 기여다.
✓
책임 있는 배포의 조건
명시적 참여, 범위가 정해진 출처 수집, 접근 통제, 보존 한계, 비강제적 사용. 갤러리 공개는 옵트인이어야 하고, 제출자 확인·검토·내려받기·출처 라벨·고지가 따라야 한다.
제8장: 2026년, 이 기술의 자리
'사람의 디지털 더블'에서 '거버넌스 가능한 아티팩트'로
2020년대 초반 "디지털 트윈"은 공장 설비나 도시의 가상 복제본을 뜻했다. 2026년의 화두는 사람의 디지털 더블(digital double of a person) 이다 — 그런데 어떻게 만들 것인가가 갈림길이었다.
한쪽 길은 무한 시뮬레이션이다. 그 사람처럼 보이고 그 사람처럼 말하는, 경계 없는 페르소나. 매력적이지만 위험하다. 동의 없는 복제, 책임 소재 불명, 잘못된 판단이 그 사람의 권위를 입고 굳어버리는 문제.
COLLEAGUE.SKILL이 제시하는 다른 길은 경계 있는 아티팩트다. 논문의 결론을 옮기면 —
"핵심 주장은 에이전트가 사람을 재창조해야 한다는 게 아니라, 선택된 인간의 흔적이 이식 가능하고 검사 가능한 스킬로 증류될 수 있다는 것이다. … 디지털 증류는 사용자가 읽고·수정하고·설치하고·삭제할 수 있는 아티팩트를 만들어야 한다. 목표처럼 들리게 그럴듯한 불투명한 프롬프트가 아니라."
이 관점에서 '제품화(productization)'는 연구의 부속물이 아니라 연구의 일부다. 설치기·매니페스트·갤러리 메타데이터·롤백 상태·삭제 경로가 있어야 비로소 아티팩트가 사용자와 호스트에게 읽히는(legible) 객체가 된다. 사적 프롬프트로 남겨두는 대신 말이다.
코어닷의 시선: 우리 조직에 무엇을 의미하나
코어닷이 보기에 COLLEAGUE.SKILL이 던지는 실질적 메시지는 세 가지다.
조직이 가져갈 세 가지 시사점
인수인계의 재정의
베테랑의 암묵지를 '문서화하라'는 막연한 숙제 대신, 흩어진 흔적에서 검사 가능한 스킬로 증류한다 — 버스 지수를 공학적으로 높이는 길
'능력만' 빌리기
사람의 말투가 아니라 판단(리뷰 기준·장애 대응 휴리스틱)만 골라 쓸 수 있다. work.md / persona.md 분리가 주는 실용적 자유
거버넌스 먼저
동의·출처·삭제·롤백을 나중에 붙이는 컴플라이언스가 아니라 처음부터 설계의 바닥에 둔다 — 한국의 개인정보 환경에서 특히 중요
물론 한계는 분명하다. 이 시스템은 행동 충실도를 풀지 못한다. 생성된 콜리그 스킬이 정말 원본 전문가와 같은 리뷰 이슈를 잡아내는지, 교정이 회귀를 부르지 않는지 — 이런 질문엔 아직 인간 평가와 과제 성능 연구가 필요하다. 저자들이 제안하는 평가 프로토콜은 전체·능력만·성격만 세 변형을 같은 출처 증거 아래 비교하는 것이다. 각 변형이 서로 다른 위험-효용 균형을 드러내기 때문이다.
마치며: 떠난 동료에게 다시 묻는다
다시 처음의 금요일 오후로 돌아가자. 김 책임이 떠난 뒤, 그의 8년이 통째로 사라지는 건 어쩔 수 없는 일이라고 우리는 오래 믿어왔다.
COLLEAGUE.SKILL의 답은 이렇다. 그의 8년 전체를 복제할 수는 없다. 하지만 그가 코드 리뷰에서 항상 가장 먼저 보던 다섯 가지, 새벽 장애 때의 그 직감 — 그 선택된 판단만큼은, 검사하고 고치고 되돌릴 수 있는 파일로 남길 수 있다.
사람을 흉내 내는 가짜를 만드는 게 아니라, 사람의 가장 값진 판단 한 조각을 투명하고 책임질 수 있는 도구로 증류하는 것. 2026년, '사람을 증류하는 AI'는 바로 이 좁고 정직한 자리에서 시작되고 있다. 그리고 그 좁음이야말로, 이 기술을 신뢰할 수 있게 만드는 이유다.
참고 자료
- Zhou, T., Liu, D., Yuan, L., Shao, J., Hu, X. (2026). COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation. arXiv:2605.31264. (본문의 모든 그림 Figure 1–4와 Table 1은 원문에서 인용)
- 프로젝트 저장소:
github.com/titanwings/colleague-skill
- Agent Skills Specification · Anthropic — Extend Claude with Skills
- 관련 글: 스킬을 스스로 키우는 스킬: Task-Observer와 자기개선 AI 에이전트의 시대
- 계보의 뿌리: ReAct (Yao et al., 2023) · Reflexion (Shinn et al., 2023) · Voyager (Wang et al., 2023) · SkillX · SkillGen · AutoSkill (2026)