
스킬을 스스로 키우는 스킬: Task-Observer와 자기개선 AI 에이전트의 시대
한 사람이 3개월 만에 자신의 40개 스킬에 600개 개선 사항을 적용했다. 직접 한 일은 거의 없었다. 'Task-Observer'라는 하나의 스킬이 모든 일을 했다. 단 1주일 만에 GitHub 별 500개를 돌파한 이 '메타 스킬'의 정체와, 그 뒤에 숨은 Voyager·Reflexion·Agent Skills의 계보를 풀어본다.

한 사람이 3개월 만에 자신의 40개 스킬에 600개 개선 사항을 적용했다. 직접 한 일은 거의 없었다. 'Task-Observer'라는 하나의 스킬이 모든 일을 했다. 단 1주일 만에 GitHub 별 500개를 돌파한 이 '메타 스킬'의 정체와, 그 뒤에 숨은 Voyager·Reflexion·Agent Skills의 계보를 풀어본다.
"3개월 동안 40개의 스킬에 600번의 개선이 자동으로 일어났다."
GitHub의 한 저장소가 별 500개를 돌파하며 r/ClaudeAI 커뮤니티를 흔든 사건의 첫 문장이다. 저자는 컨설턴트 Eoghan Henn. 그가 만든 것은 코드 한 줄이 아닌, "스킬을 만들고 개선하는 스킬"이었다. 이름은 task-observer. 별칭은 "One Skill to Rule Them All — 모든 스킬을 다스리는 하나의 스킬."

이 글은 그 한 줄이 왜 화제가 되었는지에서 출발한다. Task-Observer가 무엇을 하는 도구인지, 그 아이디어가 어디에서 왔는지(스포일러: Minecraft에서 살아남는 AI 에이전트의 논문에서 출발한다), 2026년 5월 현재 이 개념이 산업에서 어떤 역할을 맡고 있는지까지 — AI 에이전트가 "스스로 더 나아지는 단계"로 진입한 현장을 정리한다.
2026년 5월, Reddit의 ClaudeAI 서브레딧에 짧은 글 하나가 올라왔다. 제목은 직설적이었다:
"Task-observer makes your skills self-improving and automates skill creation" (Task-observer가 당신의 스킬을 스스로 개선되게 하고, 스킬 생성을 자동화한다)
본문은 더 인상적이었다. 저자 Eoghan Henn은 자신을 컨설턴트라 소개하며 이렇게 적었다.
"처음 3개월 동안 task-observer는 내가 가진 40개의 스킬에 600번의 개선을 적용했다. 그리고 그 스킬들 대부분은, task-observer가 작업 세션 중에 '이런 스킬이 필요해 보인다'고 기록한 메모에서 시작된 것들이다."
3개월 × 30일 = 약 90일. 600번이면 하루에 6~7번 꼴로 스킬이 좋아진 셈이다. 사람이 손으로 한 일은? 거의 없다. 자기가 일하는 동안 옆에서 누군가가 "이 부분 다음번엔 이렇게 하면 좋을 것 같아요"라고 메모를 남겨두고, 정해진 시간에 그 메모를 자동 반영하는 구조다.
성능 숫자 때문이 아니다. 사람들이 본 것은 개념의 우아함이었다.
이 "자기 자신을 개선하는 스킬"이라는 표현 앞에서 사람들은 멈춰 섰다. 단순한 자동화가 아니라 재귀적 자동화이기 때문이다. 도구를 갈고닦는 또 다른 도구가 있고, 그 도구도 다시 자기 자신을 갈고닦는다.
이 아이디어는 사실 2026년에 갑자기 튀어나온 것이 아니다. 그 뿌리는 2023년의 Minecraft까지 거슬러 올라간다.
본격적인 해부에 들어가기 전에, 용어부터 명확히 짚자.
Anthropic은 2025년 10월 16일 "Agent Skills"라는 표준을 공식 발표했다. 핵심은 단순하다.
스킬 = 폴더 + SKILL.md + (선택) 스크립트·리소스
폴더 안에 SKILL.md 파일을 두고, 그 파일 맨 위에 name(이름)과 description(설명)을 YAML 형식으로 적어두면 Claude는 작업 중 필요할 때 그 스킬을 "알아서" 불러온다. 핵심 키워드는 두 가지다.
이 두 가지 성질이 만나는 지점에서 흥미로운 가능성이 열린다. 다른 스킬들을 관찰하고 개선하는 스킬도 만들 수 있는 것이다.
"메타(meta-)"는 "한 단계 위"를 뜻하는 접두사다. 메타데이터는 데이터에 대한 데이터, 메타학습은 학습 방법을 학습하는 것이다.
Task-Observer는 정확히 후자다. 스킬을 다루는 스킬이다. 그래서 별명이 One Skill to Rule Them All(반지의 제왕에서 "모든 반지를 다스리는 하나의 반지" 패러디)인 것이다.
여기에 한 단계 더 얹는 개념이 있다. 메타 스킬이 자기 자신도 관찰 대상에 포함시키면, 그 메타 스킬은 시간이 갈수록 더 똑똑하게 다른 스킬을 개선하게 된다. 이것이 자기개선 에이전트의 정의다.

고대 신화의 우로보로스(Ouroboros, 자기 꼬리를 먹는 뱀)가 떠오르는 구조다. 다만 여기서는 부정적 의미의 무한루프가 아니라, 반복할 때마다 약간씩 더 나아지는 나선형 루프다.
이 아이디어, 어디서 본 적 있지 않은가? 그렇다 — 2023년 Minecraft에서 처음 등장했다.
Task-Observer 같은 발상이 2026년에 갑자기 튀어나온 것은 아니다. 자기 자신의 능력을 늘려가는 AI 에이전트라는 아이디어는 2023년에 학계에서 폭발했다.
가장 결정적인 논문은 Voyager: An Open-Ended Embodied Agent with Large Language Models이다. Caltech, Stanford, UT Austin, NVIDIA의 공동 연구로 NeurIPS 2023에서 발표되었다.

연구진은 GPT-4를 Minecraft 안에 풀어놓았다. 어떤 목표도 주지 않았다. 그저 "재미있는 일을 해봐"라고만 했다. 결과는 놀라웠다.
이 숫자보다 중요한 것은 방법론이다. Voyager는 세 가지 컴포넌트로 구성되어 있었다.
가장 중요한 발견은 두 번째다. Voyager는 "나무 베기"를 배우면, 그 코드를 라이브러리에 저장했다. 다음에 "집 짓기"를 시도할 때 "나무 베기"를 불러왔다. "집 짓기"가 완성되면 그것도 라이브러리에 저장했다. 시간이 갈수록 라이브러리는 두꺼워지고, 새로운 작업의 출발선이 점점 높아진다.
이 발상이 바로 2026년 Anthropic Agent Skills의 정신적 조상이고, 더 직접적으로는 Task-Observer가 자동화하려는 그 워크플로다.
같은 시기, MIT의 Noah Shinn 등이 발표한 Reflexion: Language Agents with Verbal Reinforcement Learning 논문이 또 다른 방향에서 같은 문제에 답했다.
기존의 강화학습(RL)은 모델 파라미터를 수치적으로 갱신했다. 이는 비싸고 느렸으며, 일반 사용자가 따라 할 수 없었다. Reflexion의 핵심 아이디어는 충격적으로 단순했다.
가중치를 갱신하지 않는다. 그저 자기 자신에게 글로 된 회고를 남긴다. 다음 시도에서 그 회고가 프롬프트에 포함된다. 결과:
자연어로 적힌 회고가 "의미론적 그래디언트(semantic gradient)" 역할을 한 것이다. 모델은 그 글을 읽고 어느 방향으로 움직여야 할지를 알게 된다.
Task-Observer는 이 아이디어를 일상 업무 환경으로 옮긴 것이다. Reflexion이 한 세션 안에서 자기 회고를 했다면, Task-Observer는 여러 세션에 걸쳐 회고를 누적하고, 정기적인 리뷰 세션에서 회고를 영구적인 스킬 개선으로 승격시킨다.
학술적 아이디어가 산업 표준이 되는 데에는 항상 시간이 걸린다. 2025년 10월 16일, Anthropic이 Agent Skills를 공식 발표하면서 그 시간이 끝났다.
Anthropic의 발표에서 가장 중요한 결정은 Progressive Disclosure라는 3단계 정보 공개 모델이었다.
이 구조의 의미가 큰 이유는, 무한히 많은 스킬을 가질 수 있게 되었다는 점이다. 100개를 만들어도 컨텍스트 비용은 거의 들지 않는다. 필요한 것만 그때그때 펼친다.
여기서 자연스러운 질문이 떠오른다. "100개의 스킬을 어떻게 관리하지?" 그 질문에 대한 한 사람의 대답이 Task-Observer였다.
이제 본 게임이다. Task-Observer는 어떻게 구성되어 있고, 어떻게 작동하는가?
Task-Observer는 놀랍게도 단 하나의 SKILL.md 파일로 시작한다. 약 1,700줄, 71KB의 마크다운 문서. 하지만 이 한 파일이 일하는 사용자의 작업 공간에 다음과 같은 디렉터리 구조를 만들어낸다.
세 가지 디렉터리가 핵심이다. observation(관찰), update(개선판 스테이징), archive(보관).
Task-Observer가 돌아가는 방식은 다음 4단계 루프다.
가장 흥미로운 부분이 여기다. 모든 관찰은 동일한 구조로 기록된다.
Date: 2026-05-27 Session context: 블로그 글 작성 중 마크다운 렌더링 검수 Skill: blog-writing Type: internal Phase/Area: Markdown 작성 규칙
Issue: 한글 다음 ** 구두점 직전에 닫는 굵게가 right-flanking으로 인식되지 않아 렌더링이 깨졌다. 사용자가 "**" 직접 치는 대신 수동으로 <strong> 태그를 넣어달라고 5번 교정했다.
Suggested improvement: blog-writing 스킬의 "Markdown 규칙" 섹션에 CJK 구두점 직전 굵게 처리 항목 추가. 혹은 자동 변환 전처리를 코드 차원에서 처리.
Principle: 마크다운 표준은 CJK 문자에 대해 충분히 견고하지 않다. 한국어/일본어 콘텐츠 스킬에는 CJK-aware 전처리 규칙이 디폴트로 들어가야 한다.
세 부분이 핵심이다.
Principle 필드가 진짜 가치다. 단발성 사례를 미래의 모든 비슷한 상황에 적용 가능한 원칙으로 추상화하는 강제 장치다.
Task-Observer는 무엇을 보고 "이건 기록해야 한다"고 판단할까? SKILL.md는 세 가지 신호 종류를 정의한다.
| 새 스킬 후보 | 기존 스킬 개선 | 스킬 단순화 |
|---|---|---|
| 여러 프로젝트·고객 간 재사용 가능한 다단계 워크플로 | 사용자가 결과물을 교정해서 누락된 규칙이 드러나는 경우 | 여러 세션에서 한 번도 사용된 적 없는 섹션 |
| "나는 항상 이렇게 한다"고 사용자가 설명한 절차 | 스킬에 적힌 워크플로보다 실제로 한 게 더 효율적이었을 때 | 한 번의 관찰로 추가됐는데 재발하지 않은 규칙 |
| 인풋·단계·아웃풋이 명확한 도메인 프로세스 | 특히 잘 작동한 기법 — 부수적 → 명시적 권장으로 승격 | 사용자가 항상 우회하는 복잡한 절차 |
세 번째 컬럼이 특히 중요하다. 나쁜 메타 스킬은 늘 추가만 한다. 좋은 메타 스킬은 잘라낼 줄 안다. Task-Observer SKILL.md는 명시적으로 "주간 리뷰 때 '무엇을 더할까?'만큼이나 '무엇을 뺄까?'를 깊이 묻는다"고 적고 있다.
Task-Observer가 다른 메타 스킬과 구별되는 결정적 디자인 결정이 하나 있다. Pre-Flight Principle(이륙 전 점검 원칙)이다.
"실세계 경험으로 드러난 패턴: 스킬에 적힌 규칙은 결과물 생성의 흐름 속에서 항상 지켜지지 않는다. 결과: 스킬의 자체 규칙을 위반하는 결과물이 나오고, 이는 스킬에 대한 신뢰를 깎는다."
해결책은 강제 장치다. 규칙이 있는 모든 스킬은 결과물을 내놓기 전에 자기 규칙을 다시 읽고 검사하는 단계를 포함해야 한다. 30초의 재독이 30분의 재작업을 막는다는 발상이다.
40개의 스킬을 운영하다 보면, 어떤 원칙은 특정 스킬에만 적용되는 게 아니라 모든 스킬에 공통으로 적용된다. 예를 들어 "고객 식별 정보는 절대 오픈소스 스킬에 포함시키지 않는다" 같은 보안 원칙.
이를 위해 Task-Observer는 cross-cutting-principles.md라는 별도 파일을 둔다. 새 스킬을 만들거나 기존 스킬을 업데이트할 때마다 이 파일을 체크리스트로 사용한다. 이렇게 함으로써 "좋은 의도"가 "강제된 표준"으로 승격된다.
마지막으로, 누적된 관찰을 실제 스킬 파일에 반영하는 과정이 있다. Task-Observer는 두 가지 모드를 지원한다.
| Scheduled Mode (권장) | Fallback Mode |
|---|---|
| 월·수·금 아침처럼 정해진 cron 스케줄로 실행 | 스케줄링이 없는 환경에서 7일 이상 리뷰가 없으면 다음 세션 시작 시 자동 실행 |
| 사용자 없이 자율 실행 — 비논쟁적 관찰은 자동 적용 | 사용자가 있는 세션 안에서 인터랙티브하게 진행 |
| 새 스킬 생성, 기존 섹션 삭제 등 큰 변경은 사용자에게 리포트만 하고 적용 대기 | 모든 변경을 사용자 승인 후 적용 |
스케줄 모드의 안전장치는 스테이징-앤-업로드 패턴이다. 자동 리뷰는 변경판을 skill-updates/날짜/스킬이름/SKILL.md에 저장만 한다. 사용자가 명시적으로 업로드해야 실제로 활성화된다. 자동 실행이지만 자동 적용은 아니다.
Task-Observer는 외로운 실험이 아니다. 2026년 5월 현재, AI 산업 전체가 비슷한 방향으로 움직이고 있다.

Anthropic이 2026년에 진행한 웨비나에서 터미널 회사 Warp는 자신들의 접근을 공개했다.
"팀이 에이전트의 출력을 어떻게 교정하는지를 관찰하고, 에이전트가 자기 스킬을 다시 써서 다음에는 더 잘하게 만든다."
Task-Observer의 패턴과 정확히 같다. 다른 점은 Warp는 이 메커니즘을 자기 제품에 내장된 형태로 구현했다는 것이다. 사용자가 별도로 스킬을 셋업할 필요가 없다.
코딩 에이전트들도 비슷한 길을 걷고 있다. Cursor의 ".cursorrules", Cline의 "Memory Bank", Aider의 "convention files" — 이름은 다르지만 기능은 유사하다. 반복되는 사용자 교정을 영구 메모리로 흡수해 다음 세션부터 자동 적용한다.
Anthropic의 공식 블로그에 따르면, Agent Skills 스펙은 오픈 표준으로 공개되었다. MCP(Model Context Protocol)를 2024년에 공개해 사실상의 산업 표준으로 만든 전략과 같은 패턴이다.
MCP는 "도구의 외부 연결"을 표준화했고, Agent Skills는 "지식의 내부 자산화"를 표준화했다. Task-Observer는 이 두 표준 위에서 작동하는 "관리 자동화 레이어"다.
이 흐름이 한국 기업·실무자에게 의미하는 바는 명확하다.
마지막으로, 실제 적용을 고민하는 독자를 위한 실용 가이드와 솔직한 한계를 정리한다.
저자 Eoghan Henn 본인이 권하는 시작 방법은 의외로 단순하다.
| 완전 지원 | Handoff 모드 | 미검증 |
|---|---|---|
| Claude Code (데스크톱) | Claude.ai 웹 | ChatGPT, Gemini CLI |
| Claude Cowork / Dispatch | Claude 모바일 앱 | Cursor (확인 보고는 있음) |
| 파일시스템 접근 가능한 모든 환경 | 세션 끝에 핸드오프 문서 생성 | Openclaw, Hermes 등 자율 에이전트 |
핵심 변수는 파일시스템 접근 여부다. Task-Observer의 핵심 가치는 세션 간 영구 기록에서 나오기 때문에, 파일을 쓸 수 없으면 가치의 절반이 사라진다.
이 글이 광고가 아니므로, 한계도 명확히 짚는다.
특히 첫 번째 — 로딩 비용은 무시할 수 없다. SKILL.md 자체가 1,700줄에 달하다 보니, "이 메타 스킬이 정말 컨텍스트 비용을 정당화하는가?"는 매번 검토해야 할 질문이다. 저자도 SKILL.md 안에서 "Lean Content" 원칙을 명시한다 — 에이전트의 실제 행동을 바꾸지 않는 내용(체인지로그, 감사글, 자기 설명)은 SKILL.md에서 빼서 별도 문서로 옮기라는 규칙이다.
마지막 질문이 가장 중요하다. "이 패턴, 어디까지 일반화될까?"
답: 스킬 시스템이 있는 모든 곳.
이 원리는 Claude에만 갇혀 있지 않다. 이미 사용자들이 Codex 버전, Openclaw, Hermes 등에 포팅했다고 보고했다. 사용자가 Obsidian에 연결한 사례도 있다. 이론적으로는 ChatGPT의 custom GPT나 Gemini CLI에서도 동일한 패턴을 재현할 수 있다 — 환경에 맞게 일부 어휘만 바꾸면 된다.
Voyager가 Minecraft 안에서 자기 스킬 라이브러리를 키워나간 게 2023년이었다. Reflexion이 자연어 회고로 자기를 가르치는 법을 보여준 것도 2023년이었다. 그리고 2026년, 한 컨설턴트가 자기 일상 업무에 그 두 아이디어를 합쳐 GitHub에 공개했고, 일주일도 안 되어 별 500개를 받았다.
이 사건이 흥미로운 이유는 새로운 기술이라서가 아니다. 이미 학계에서 3년 동안 무르익은 개념이, 마침내 평범한 지식근로자의 책상 위로 내려왔다는 점이다.
"당신은 평소대로 일한다. 메타 스킬은 본다. 당신의 스킬 라이브러리는 시간이 갈수록 커지고 좋아진다." — task-observer README, 첫 단락
이 한 문장이 2026년 AI 시대의 핵심을 함축한다. 노력의 자리에 관찰이 들어선다. 한 번에 모든 것을 정의하려는 대신, 사용하면서 조금씩 발견되는 것이 시스템에 흡수된다.
코어닷은 이런 변화를 한국 시장에 맞게 풀어내는 작업을 계속하고 있다. AI를 다루는 방식이 다시 한 번 바뀌고 있는 지금, 우리가 묻고 싶은 질문은 단순하다.
당신의 스킬 라이브러리는, 어제보다 오늘 더 똑똑해졌는가?