Task Observer메타 스킬Claude Skills자기개선 에이전트VoyagerReflexion

스킬을 스스로 키우는 스킬: Task-Observer와 자기개선 AI 에이전트의 시대

한 사람이 3개월 만에 자신의 40개 스킬에 600개 개선 사항을 적용했다. 직접 한 일은 거의 없었다. 'Task-Observer'라는 하나의 스킬이 모든 일을 했다. 단 1주일 만에 GitHub 별 500개를 돌파한 이 '메타 스킬'의 정체와, 그 뒤에 숨은 Voyager·Reflexion·Agent Skills의 계보를 풀어본다.

코어닷투데이2026-05-2755분

한 줄로 시작하는 이야기

"3개월 동안 40개의 스킬에 600번의 개선이 자동으로 일어났다."

GitHub의 한 저장소가 별 500개를 돌파하며 r/ClaudeAI 커뮤니티를 흔든 사건의 첫 문장이다. 저자는 컨설턴트 Eoghan Henn. 그가 만든 것은 코드 한 줄이 아닌, "스킬을 만들고 개선하는 스킬"이었다. 이름은 task-observer. 별칭은 "One Skill to Rule Them All — 모든 스킬을 다스리는 하나의 스킬."

Task-Observer 메타 스킬의 컨셉 — 모든 스킬을 관찰하는 거대한 망원경

이 글은 그 한 줄이 왜 화제가 되었는지에서 출발한다. Task-Observer가 무엇을 하는 도구인지, 그 아이디어가 어디에서 왔는지(스포일러: Minecraft에서 살아남는 AI 에이전트의 논문에서 출발한다), 2026년 5월 현재 이 개념이 산업에서 어떤 역할을 맡고 있는지까지 — AI 에이전트가 "스스로 더 나아지는 단계"로 진입한 현장을 정리한다.

제1장: 사건의 발단

↓

제2장: 메타 스킬이란 무엇인가

↓

제3장: 학술적 계보 (Voyager · Reflexion)

↓

제4장: Task-Observer 아키텍처 정밀해부

↓

제5장: 2026년의 자기개선 AI 풍경

↓

제6장: 적용 가이드와 한계

제1장: 별 500개의 사건 — 발단부터

2026년 5월, Reddit의 ClaudeAI 서브레딧에 짧은 글 하나가 올라왔다. 제목은 직설적이었다:

"Task-observer makes your skills self-improving and automates skill creation" (Task-observer가 당신의 스킬을 스스로 개선되게 하고, 스킬 생성을 자동화한다)

본문은 더 인상적이었다. 저자 Eoghan Henn은 자신을 컨설턴트라 소개하며 이렇게 적었다.

"처음 3개월 동안 task-observer는 내가 가진 40개의 스킬에 600번의 개선을 적용했다. 그리고 그 스킬들 대부분은, task-observer가 작업 세션 중에 '이런 스킬이 필요해 보인다'고 기록한 메모에서 시작된 것들이다."

3개월 × 30일 = 약 90일. 600번이면 하루에 6~7번 꼴로 스킬이 좋아진 셈이다. 사람이 손으로 한 일은? 거의 없다. 자기가 일하는 동안 옆에서 누군가가 "이 부분 다음번엔 이렇게 하면 좋을 것 같아요"라고 메모를 남겨두고, 정해진 시간에 그 메모를 자동 반영하는 구조다.

게시물이 화제가 된 진짜 이유

성능 숫자 때문이 아니다. 사람들이 본 것은 개념의 우아함이었다.

문제: 스킬은 만들면 끝, 그 뒤로는 화석이 된다

대부분의 AI 스킬(System prompt, custom GPT, Claude Skill 등)은 한 번 만들고 나면 거의 손대지 않는다. 사용자가 매번 똑같은 실수를 교정해줘도, 그 교정은 다음 세션에서 사라진다.

해결: 사용 현장을 관찰하는 별도의 스킬을 둔다

Task-Observer는 다른 스킬이 작동하는 동안 옆에서 사용자의 교정, 반복되는 패턴, 새로 만들면 좋을 워크플로를 기록한다. 일은 막지 않는다. 그저 본다.

✓

결과: 스킬 라이브러리 전체가 시간이 갈수록 좋아진다

스킬은 죽은 문서가 아니라 살아 있는 자산이 된다. 그리고 가장 중요한 점 — task-observer는 자기 자신도 관찰 대상에 포함시킨다. 자기 자신을 개선하는 스킬이다.

이 "자기 자신을 개선하는 스킬"이라는 표현 앞에서 사람들은 멈춰 섰다. 단순한 자동화가 아니라 재귀적 자동화이기 때문이다. 도구를 갈고닦는 또 다른 도구가 있고, 그 도구도 다시 자기 자신을 갈고닦는다.

이 아이디어는 사실 2026년에 갑자기 튀어나온 것이 아니다. 그 뿌리는 2023년의 Minecraft까지 거슬러 올라간다.

제2장: 메타 스킬이란 무엇인가 — 개념 정리부터

본격적인 해부에 들어가기 전에, 용어부터 명확히 짚자.

스킬(Skill)

Anthropic은 2025년 10월 16일 "Agent Skills"라는 표준을 공식 발표했다. 핵심은 단순하다.

스킬 = 폴더 + SKILL.md + (선택) 스크립트·리소스

폴더 안에 SKILL.md 파일을 두고, 그 파일 맨 위에 name(이름)과 description(설명)을 YAML 형식으로 적어두면 Claude는 작업 중 필요할 때 그 스킬을 "알아서" 불러온다. 핵심 키워드는 두 가지다.

Anthropic Agent Skills의 두 가지 핵심 개념

Progressive Disclosure 점진적 공개 필요할 때만 필요한 만큼만 컨텍스트에 로드한다 — 시작 시점에는 name·description만 본다

Composability 조합성 여러 스킬이 동시에 작동하며 서로를 호출할 수 있다 — 스킬 라이브러리가 클수록 강해진다

이 두 가지 성질이 만나는 지점에서 흥미로운 가능성이 열린다. 다른 스킬들을 관찰하고 개선하는 스킬도 만들 수 있는 것이다.

메타 스킬(Meta-Skill)

"메타(meta-)"는 "한 단계 위"를 뜻하는 접두사다. 메타데이터는 데이터에 대한 데이터, 메타학습은 학습 방법을 학습하는 것이다.

"메타"의 의미 — 한 단계 위의 추상화

데이터 실제 콘텐츠 (글, 이미지, 숫자)

메타데이터 데이터에 대한 데이터 (작성일, 작성자, 크기)

스킬 "블로그 글을 쓰는 법" "리뷰하는 법" 같은 절차

메타 스킬 "스킬을 만들고 개선하는 법" — 스킬 위의 스킬

Task-Observer는 정확히 후자다. 스킬을 다루는 스킬이다. 그래서 별명이 One Skill to Rule Them All(반지의 제왕에서 "모든 반지를 다스리는 하나의 반지" 패러디)인 것이다.

자기개선(Self-Improving) 에이전트

여기에 한 단계 더 얹는 개념이 있다. 메타 스킬이 자기 자신도 관찰 대상에 포함시키면, 그 메타 스킬은 시간이 갈수록 더 똑똑하게 다른 스킬을 개선하게 된다. 이것이 자기개선 에이전트의 정의다.

자기 자신을 개선하는 메타 스킬을 우로보로스로 표현한 일러스트

고대 신화의 우로보로스(Ouroboros, 자기 꼬리를 먹는 뱀)가 떠오르는 구조다. 다만 여기서는 부정적 의미의 무한루프가 아니라, 반복할 때마다 약간씩 더 나아지는 나선형 루프다.

이 아이디어, 어디서 본 적 있지 않은가? 그렇다 — 2023년 Minecraft에서 처음 등장했다.

제3장: 학술적 계보 — Voyager에서 Reflexion까지

Task-Observer 같은 발상이 2026년에 갑자기 튀어나온 것은 아니다. 자기 자신의 능력을 늘려가는 AI 에이전트라는 아이디어는 2023년에 학계에서 폭발했다.

자기개선 AI 에이전트 — 핵심 논문 타임라인

Reflexion Shinn et al. 2023.03 — 언어적 강화학습

Self-Refine Madaan et al. 2023.03 — 자기 피드백 루프

Voyager Wang et al. 2023.05 — 스킬 라이브러리의 등장

Generative Agents Park et al. 2023.04 — 기억 + 반영 루프

Anthropic Agent Skills Anthropic 2025.10 — 산업 표준화

Task-Observer Eoghan Henn 2026.02 — 메타 스킬 패러다임

3-1. Voyager (2023.05) — 스킬 라이브러리의 발명

가장 결정적인 논문은 Voyager: An Open-Ended Embodied Agent with Large Language Models이다. Caltech, Stanford, UT Austin, NVIDIA의 공동 연구로 NeurIPS 2023에서 발표되었다.

Minecraft 세계에서 스킬을 학습하는 Voyager AI 에이전트의 일러스트

연구진은 GPT-4를 Minecraft 안에 풀어놓았다. 어떤 목표도 주지 않았다. 그저 "재미있는 일을 해봐"라고만 했다. 결과는 놀라웠다.

Voyager의 압도적 성능 (이전 SOTA 대비)

고유 아이템 획득 3.3배 ↑

탐험 거리 2.3배 ↑

테크 트리 도달 속도 15.3배 ↑

이 숫자보다 중요한 것은 방법론이다. Voyager는 세 가지 컴포넌트로 구성되어 있었다.

Voyager의 3 컴포넌트 아키텍처

Automatic Curriculum 자동 커리큘럼 "지금 할 만한 가장 흥미로운 일은 무엇인가?"를 스스로 정한다

Skill Library 스킬 라이브러리 한 번 익힌 행동(코드)을 저장해두고 나중에 재사용한다 — 핵심 발명

Iterative Prompting 반복적 프롬프트 실행 오류, 환경 피드백, 자기 검증을 통해 코드를 개선한다

가장 중요한 발견은 두 번째다. Voyager는 "나무 베기"를 배우면, 그 코드를 라이브러리에 저장했다. 다음에 "집 짓기"를 시도할 때 "나무 베기"를 불러왔다. "집 짓기"가 완성되면 그것도 라이브러리에 저장했다. 시간이 갈수록 라이브러리는 두꺼워지고, 새로운 작업의 출발선이 점점 높아진다.

이 발상이 바로 2026년 Anthropic Agent Skills의 정신적 조상이고, 더 직접적으로는 Task-Observer가 자동화하려는 그 워크플로다.

3-2. Reflexion (2023.03) — 언어로 자기를 가르치다

같은 시기, MIT의 Noah Shinn 등이 발표한 Reflexion: Language Agents with Verbal Reinforcement Learning 논문이 또 다른 방향에서 같은 문제에 답했다.

기존의 강화학습(RL)은 모델 파라미터를 수치적으로 갱신했다. 이는 비싸고 느렸으며, 일반 사용자가 따라 할 수 없었다. Reflexion의 핵심 아이디어는 충격적으로 단순했다.

생각 에이전트가 작업을 시도한다 (예: 코드 작성)

행동 환경에서 결과를 받는다 (예: 테스트 실패)

관찰 "왜 실패했는가?"를 자연어로 글로 적는다 → 다음 시도의 입력에 추가

가중치를 갱신하지 않는다. 그저 자기 자신에게 글로 된 회고를 남긴다. 다음 시도에서 그 회고가 프롬프트에 포함된다. 결과:

Reflexion 성능 향상 (이전 SOTA 대비)

AlfWorld (가정 환경 추론) +22%

HotPotQA (다단계 질의응답) +20%

HumanEval (코딩) +11%

자연어로 적힌 회고가 "의미론적 그래디언트(semantic gradient)" 역할을 한 것이다. 모델은 그 글을 읽고 어느 방향으로 움직여야 할지를 알게 된다.

Task-Observer는 이 아이디어를 일상 업무 환경으로 옮긴 것이다. Reflexion이 한 세션 안에서 자기 회고를 했다면, Task-Observer는 여러 세션에 걸쳐 회고를 누적하고, 정기적인 리뷰 세션에서 회고를 영구적인 스킬 개선으로 승격시킨다.

3-3. 2025년 10월의 분기점 — Anthropic Agent Skills

학술적 아이디어가 산업 표준이 되는 데에는 항상 시간이 걸린다. 2025년 10월 16일, Anthropic이 Agent Skills를 공식 발표하면서 그 시간이 끝났다.

Anthropic의 발표에서 가장 중요한 결정은 Progressive Disclosure라는 3단계 정보 공개 모델이었다.

Progressive Disclosure — 3단계 정보 공개

Tier 1: Discovery 발견 단계 스킬 이름과 description만 시스템 프롬프트에 로드 — 가장 적은 토큰으로 어떤 스킬이 있는지 안다

Tier 2: Core Context 핵심 컨텍스트 관련성이 있다고 판단되면 SKILL.md 전체를 로드 — 핵심 지침과 워크플로

Tier 3+: Detail 세부 리소스 필요할 때만 reference.md, scripts/, templates/ 등을 추가 로드 — 컨텍스트 절약

이 구조의 의미가 큰 이유는, 무한히 많은 스킬을 가질 수 있게 되었다는 점이다. 100개를 만들어도 컨텍스트 비용은 거의 들지 않는다. 필요한 것만 그때그때 펼친다.

여기서 자연스러운 질문이 떠오른다. "100개의 스킬을 어떻게 관리하지?" 그 질문에 대한 한 사람의 대답이 Task-Observer였다.

제4장: Task-Observer 아키텍처 정밀해부

이제 본 게임이다. Task-Observer는 어떻게 구성되어 있고, 어떻게 작동하는가?

4-1. 전체 구조 — 두 개의 파일과 하나의 폴더

Task-Observer는 놀랍게도 단 하나의 SKILL.md 파일로 시작한다. 약 1,700줄, 71KB의 마크다운 문서. 하지만 이 한 파일이 일하는 사용자의 작업 공간에 다음과 같은 디렉터리 구조를 만들어낸다.

📁 [workspace folder]/

[workspace folder]/ ├─ skill-observations/ │ ├─ log.md # 관찰 일지 (실시간 append) │ ├─ cross-cutting-principles.md # 모든 스킬에 공통 적용되는 원칙 │ ├─ last-review-date.txt # 마지막 정기 리뷰 일자 │ └─ archive/ │ └─ log-2026-05-27.md # 처리 완료된 관찰 보관 ├─ skill-updates/ │ └─ 2026-05-27/ │ └─ my-skill/ │ └─ SKILL.md # 업로드 대기 중인 개선판 └─ CLAUDE.md # 세션 시작 시 task-observer 자동 호출

세 가지 디렉터리가 핵심이다. observation(관찰), update(개선판 스테이징), archive(보관).

4-2. 워크플로 — 4단계 루프

Task-Observer가 돌아가는 방식은 다음 4단계 루프다.

① Session Start 세션이 시작되면 CLAUDE.md를 통해 자동 호출된다. 로그 파일을 읽어 OPEN 관찰들을 확인한다.

② Observe Silently 사용자가 일하는 동안, 교정·반복 패턴·새 스킬 후보를 발견하면 log.md에 조용히 append한다. 사용자 흐름을 끊지 않는다.

③ Surface at End 세션이 끝날 때 그날의 관찰을 사용자에게 보여준다. 어떤 것을 적용할지 사용자가 결정한다.

④ Weekly Review 월·수·금 아침처럼 정해진 시간에 누적된 관찰을 일괄 처리해 스킬 파일을 업데이트한다.

4-3. 관찰 로그(observation log)의 구조

가장 흥미로운 부분이 여기다. 모든 관찰은 동일한 구조로 기록된다.

📝 log.md — 관찰 한 건의 표준 형식

### Observation 247: 한국어 굵게 표시 깨짐 패턴

Date: 2026-05-27 Session context: 블로그 글 작성 중 마크다운 렌더링 검수 Skill: blog-writing Type: internal Phase/Area: Markdown 작성 규칙

Issue: 한글 다음 ** 구두점 직전에 닫는 굵게가 right-flanking으로 인식되지 않아 렌더링이 깨졌다. 사용자가 "**" 직접 치는 대신 수동으로 <strong> 태그를 넣어달라고 5번 교정했다.

Suggested improvement: blog-writing 스킬의 "Markdown 규칙" 섹션에 CJK 구두점 직전 굵게 처리 항목 추가. 혹은 자동 변환 전처리를 코드 차원에서 처리.

Principle: 마크다운 표준은 CJK 문자에 대해 충분히 견고하지 않다. 한국어/일본어 콘텐츠 스킬에는 CJK-aware 전처리 규칙이 디폴트로 들어가야 한다.

세 부분이 핵심이다.

관찰 한 건의 3대 필드

Issue (관찰) 무엇이 일어났는가 — 사실 기록. 몇 주 뒤 다시 봐도 맥락이 보이도록 구체적으로.

Suggested Improvement (제안) 무엇을 바꿀 것인가 — 액션. 기존 스킬의 어느 섹션을 어떻게 고칠지 명시.

Principle (원칙) 왜 중요한가 — 일반화. 이 한 사례를 넘어서는 재사용 가능한 통찰.

Principle 필드가 진짜 가치다. 단발성 사례를 미래의 모든 비슷한 상황에 적용 가능한 원칙으로 추상화하는 강제 장치다.

4-4. 신호 분류 — 무엇을 관찰할 것인가

Task-Observer는 무엇을 보고 "이건 기록해야 한다"고 판단할까? SKILL.md는 세 가지 신호 종류를 정의한다.

새 스킬 후보	기존 스킬 개선	스킬 단순화
여러 프로젝트·고객 간 재사용 가능한 다단계 워크플로	사용자가 결과물을 교정해서 누락된 규칙이 드러나는 경우	여러 세션에서 한 번도 사용된 적 없는 섹션
"나는 항상 이렇게 한다"고 사용자가 설명한 절차	스킬에 적힌 워크플로보다 실제로 한 게 더 효율적이었을 때	한 번의 관찰로 추가됐는데 재발하지 않은 규칙
인풋·단계·아웃풋이 명확한 도메인 프로세스	특히 잘 작동한 기법 — 부수적 → 명시적 권장으로 승격	사용자가 항상 우회하는 복잡한 절차

세 번째 컬럼이 특히 중요하다. 나쁜 메타 스킬은 늘 추가만 한다. 좋은 메타 스킬은 잘라낼 줄 안다. Task-Observer SKILL.md는 명시적으로 "주간 리뷰 때 '무엇을 더할까?'만큼이나 '무엇을 뺄까?'를 깊이 묻는다"고 적고 있다.

4-5. Pre-Flight Principle — 빌트인 강제 장치

Task-Observer가 다른 메타 스킬과 구별되는 결정적 디자인 결정이 하나 있다. Pre-Flight Principle(이륙 전 점검 원칙)이다.

"실세계 경험으로 드러난 패턴: 스킬에 적힌 규칙은 결과물 생성의 흐름 속에서 항상 지켜지지 않는다. 결과: 스킬의 자체 규칙을 위반하는 결과물이 나오고, 이는 스킬에 대한 신뢰를 깎는다."

해결책은 강제 장치다. 규칙이 있는 모든 스킬은 결과물을 내놓기 전에 자기 규칙을 다시 읽고 검사하는 단계를 포함해야 한다. 30초의 재독이 30분의 재작업을 막는다는 발상이다.

4-6. Cross-Cutting Principles — 모든 스킬에 흐르는 헌법

40개의 스킬을 운영하다 보면, 어떤 원칙은 특정 스킬에만 적용되는 게 아니라 모든 스킬에 공통으로 적용된다. 예를 들어 "고객 식별 정보는 절대 오픈소스 스킬에 포함시키지 않는다" 같은 보안 원칙.

이를 위해 Task-Observer는 cross-cutting-principles.md라는 별도 파일을 둔다. 새 스킬을 만들거나 기존 스킬을 업데이트할 때마다 이 파일을 체크리스트로 사용한다. 이렇게 함으로써 "좋은 의도"가 "강제된 표준"으로 승격된다.

① 관찰 한 스킬을 개선하다가 모든 스킬에 적용되는 원칙을 발견

② 승격 사용자 승인 시 cross-cutting-principles.md에 추가

③ 전파 이후 모든 스킬 생성·갱신에서 자동으로 컴플라이언스 체크

4-7. 정기 리뷰 — Comprehensive Review

마지막으로, 누적된 관찰을 실제 스킬 파일에 반영하는 과정이 있다. Task-Observer는 두 가지 모드를 지원한다.

Scheduled Mode (권장)	Fallback Mode
월·수·금 아침처럼 정해진 cron 스케줄로 실행	스케줄링이 없는 환경에서 7일 이상 리뷰가 없으면 다음 세션 시작 시 자동 실행
사용자 없이 자율 실행 — 비논쟁적 관찰은 자동 적용	사용자가 있는 세션 안에서 인터랙티브하게 진행
새 스킬 생성, 기존 섹션 삭제 등 큰 변경은 사용자에게 리포트만 하고 적용 대기	모든 변경을 사용자 승인 후 적용

스케줄 모드의 안전장치는 스테이징-앤-업로드 패턴이다. 자동 리뷰는 변경판을 skill-updates/날짜/스킬이름/SKILL.md에 저장만 한다. 사용자가 명시적으로 업로드해야 실제로 활성화된다. 자동 실행이지만 자동 적용은 아니다.

제5장: 2026년의 자기개선 AI 풍경

Task-Observer는 외로운 실험이 아니다. 2026년 5월 현재, AI 산업 전체가 비슷한 방향으로 움직이고 있다.

개선되는 AI를 보여주는 4컷 만화 — 교정 → 기록 → 시간 경과 → 똑똑해진 AI

5-1. Warp의 사례 — 자기를 고치는 터미널

Anthropic이 2026년에 진행한 웨비나에서 터미널 회사 Warp는 자신들의 접근을 공개했다.

"팀이 에이전트의 출력을 어떻게 교정하는지를 관찰하고, 에이전트가 자기 스킬을 다시 써서 다음에는 더 잘하게 만든다."

Task-Observer의 패턴과 정확히 같다. 다른 점은 Warp는 이 메커니즘을 자기 제품에 내장된 형태로 구현했다는 것이다. 사용자가 별도로 스킬을 셋업할 필요가 없다.

5-2. Cursor·Cline·Aider의 학습 메모리

코딩 에이전트들도 비슷한 길을 걷고 있다. Cursor의 ".cursorrules", Cline의 "Memory Bank", Aider의 "convention files" — 이름은 다르지만 기능은 유사하다. 반복되는 사용자 교정을 영구 메모리로 흡수해 다음 세션부터 자동 적용한다.

5-3. Anthropic의 공식 입장 — Skills as Open Standard

Anthropic의 공식 블로그에 따르면, Agent Skills 스펙은 오픈 표준으로 공개되었다. MCP(Model Context Protocol)를 2024년에 공개해 사실상의 산업 표준으로 만든 전략과 같은 패턴이다.

Anthropic의 두 가지 오픈 스펙

MCP (2024) 외부 도구 연결 "에이전트가 어떻게 외부 API·DB·서비스에 접근할 것인가"

Agent Skills (2025.10) 내부 지식·절차 "에이전트가 어떻게 우리 조직의 노하우·워크플로를 익힐 것인가"

MCP는 "도구의 외부 연결"을 표준화했고, Agent Skills는 "지식의 내부 자산화"를 표준화했다. Task-Observer는 이 두 표준 위에서 작동하는 "관리 자동화 레이어"다.

5-4. 한국에서의 시사점

이 흐름이 한국 기업·실무자에게 의미하는 바는 명확하다.

"AI를 잘 쓰는 사람"의 정의가 바뀌고 있다

2024년까지는 프롬프트를 잘 짜는 사람이었다. 2025년부터는 스킬을 잘 만드는 사람이 더 강해졌다. 2026년부터는 자기 스킬이 자기개선 루프에 올라타 있는 사람이 압도적으로 빨라진다.

조직 단위의 "스킬 자산화" 게임이 시작됐다

개인의 노하우가 SKILL.md 파일로 자산화되고, 메타 스킬에 의해 자동으로 갱신된다. 이는 개인의 암묵지를 조직의 형식지로 전환하는 가장 가벼운 메커니즘이다.

✓

"감히 따라 할 수 없는 컨설팅 회사"라는 표현이 다시 가능해진다

컨설팅·법무·의료처럼 노하우가 자산인 업계에서, 외부 모델은 같아도 내부 스킬 라이브러리는 다르다. 그 라이브러리가 자기개선 루프에 올라타 있을 때, 격차는 시간이 갈수록 벌어진다.

제6장: 적용 가이드와 한계

마지막으로, 실제 적용을 고민하는 독자를 위한 실용 가이드와 솔직한 한계를 정리한다.

6-1. 시작하는 가장 빠른 방법

저자 Eoghan Henn 본인이 권하는 시작 방법은 의외로 단순하다.

① 자료 다운로드 GitHub 저장소에서 SKILL.md, README, USER-GUIDE.md 세 파일을 받는다

② AI에게 통째로 던지기 자신이 쓰는 AI 환경(Claude Code, Cursor, 등)에 세 파일을 모두 컨텍스트로 주고 "내 셋업에 맞게 도입해줘"라고 요청한다

③ CLAUDE.md에 자동 호출 추가 세션 시작마다 task-observer가 작동하도록 설정 파일에 트리거를 넣는다

④ 주기적 리뷰 스케줄 등록 월·수·금 아침처럼 정기 리뷰 시간을 cron이나 스케줄러에 등록한다

6-2. 어디서 작동하고 어디서 안 되는가

완전 지원	Handoff 모드	미검증
Claude Code (데스크톱)	Claude.ai 웹	ChatGPT, Gemini CLI
Claude Cowork / Dispatch	Claude 모바일 앱	Cursor (확인 보고는 있음)
파일시스템 접근 가능한 모든 환경	세션 끝에 핸드오프 문서 생성	Openclaw, Hermes 등 자율 에이전트

핵심 변수는 파일시스템 접근 여부다. Task-Observer의 핵심 가치는 세션 간 영구 기록에서 나오기 때문에, 파일을 쓸 수 없으면 가치의 절반이 사라진다.

6-3. 솔직한 한계

이 글이 광고가 아니므로, 한계도 명확히 짚는다.

Task-Observer 도입 시 알아둘 한계

컨텍스트 비용 71KB의 SKILL.md가 매 세션 로드된다. 토큰 비용이 실제로 발생한다.

사용자 의존 관찰은 자동이지만 승인·리뷰는 결국 사람이 한다. 리뷰를 안 하면 로그만 쌓인다.

단일 사용자 가정 병렬 세션의 로그 충돌 처리는 있지만, 팀 단위 협업 시나리오는 본격 지원하지 않는다.

특히 첫 번째 — 로딩 비용은 무시할 수 없다. SKILL.md 자체가 1,700줄에 달하다 보니, "이 메타 스킬이 정말 컨텍스트 비용을 정당화하는가?"는 매번 검토해야 할 질문이다. 저자도 SKILL.md 안에서 "Lean Content" 원칙을 명시한다 — 에이전트의 실제 행동을 바꾸지 않는 내용(체인지로그, 감사글, 자기 설명)은 SKILL.md에서 빼서 별도 문서로 옮기라는 규칙이다.

6-4. 어디까지 일반화 가능한가

마지막 질문이 가장 중요하다. "이 패턴, 어디까지 일반화될까?"

답: 스킬 시스템이 있는 모든 곳.

스킬 시스템이 있는 환경

↓

메타 스킬을 만들어 다른 스킬을 관찰·개선할 수 있다

↓

메타 스킬이 자기 자신도 관찰 대상에 포함시키면

↓

자기개선 루프가 닫힌다

이 원리는 Claude에만 갇혀 있지 않다. 이미 사용자들이 Codex 버전, Openclaw, Hermes 등에 포팅했다고 보고했다. 사용자가 Obsidian에 연결한 사례도 있다. 이론적으로는 ChatGPT의 custom GPT나 Gemini CLI에서도 동일한 패턴을 재현할 수 있다 — 환경에 맞게 일부 어휘만 바꾸면 된다.

마치며: 도구가 도구를 만드는 시대로

Voyager가 Minecraft 안에서 자기 스킬 라이브러리를 키워나간 게 2023년이었다. Reflexion이 자연어 회고로 자기를 가르치는 법을 보여준 것도 2023년이었다. 그리고 2026년, 한 컨설턴트가 자기 일상 업무에 그 두 아이디어를 합쳐 GitHub에 공개했고, 일주일도 안 되어 별 500개를 받았다.

이 사건이 흥미로운 이유는 새로운 기술이라서가 아니다. 이미 학계에서 3년 동안 무르익은 개념이, 마침내 평범한 지식근로자의 책상 위로 내려왔다는 점이다.

"당신은 평소대로 일한다. 메타 스킬은 본다. 당신의 스킬 라이브러리는 시간이 갈수록 커지고 좋아진다." — task-observer README, 첫 단락

이 한 문장이 2026년 AI 시대의 핵심을 함축한다. 노력의 자리에 관찰이 들어선다. 한 번에 모든 것을 정의하려는 대신, 사용하면서 조금씩 발견되는 것이 시스템에 흡수된다.

코어닷은 이런 변화를 한국 시장에 맞게 풀어내는 작업을 계속하고 있다. AI를 다루는 방식이 다시 한 번 바뀌고 있는 지금, 우리가 묻고 싶은 질문은 단순하다.

당신의 스킬 라이브러리는, 어제보다 오늘 더 똑똑해졌는가?

참고 자료

Task-Observer 저장소 — github.com/rebelytics/one-skill-to-rule-them-all
Reddit 발표 글 — r/ClaudeAI 토론 스레드
Voyager 논문 — Wang et al., arXiv:2305.16291, NeurIPS 2023
Reflexion 논문 — Shinn et al., arXiv:2303.11366, NeurIPS 2023
Anthropic Agent Skills 발표 — Introducing Agent Skills (2025.10.16)
Anthropic 엔지니어링 블로그 — Equipping Agents with Agent Skills
Warp 자기개선 에이전트 웨비나 — Anthropic Webinars
Augmented Expertise 방법론 — rebelytics.com

AI 에이전트2026.06.06

스킬을 스스로 키우는 스킬: Task-Observer와 자기개선 AI 에이전트의 시대

한 줄로 시작하는 이야기

제1장: 별 500개의 사건 — 발단부터

게시물이 화제가 된 진짜 이유

제2장: 메타 스킬이란 무엇인가 — 개념 정리부터

스킬(Skill)

메타 스킬(Meta-Skill)

자기개선(Self-Improving) 에이전트

제3장: 학술적 계보 — Voyager에서 Reflexion까지

3-1. Voyager (2023.05) — 스킬 라이브러리의 발명

3-2. Reflexion (2023.03) — 언어로 자기를 가르치다

3-3. 2025년 10월의 분기점 — Anthropic Agent Skills

제4장: Task-Observer 아키텍처 정밀해부

4-1. 전체 구조 — 두 개의 파일과 하나의 폴더

4-2. 워크플로 — 4단계 루프

4-3. 관찰 로그(observation log)의 구조

4-4. 신호 분류 — 무엇을 관찰할 것인가

4-5. Pre-Flight Principle — 빌트인 강제 장치

4-6. Cross-Cutting Principles — 모든 스킬에 흐르는 헌법

4-7. 정기 리뷰 — Comprehensive Review

제5장: 2026년의 자기개선 AI 풍경

5-1. Warp의 사례 — 자기를 고치는 터미널

5-2. Cursor·Cline·Aider의 학습 메모리

5-3. Anthropic의 공식 입장 — Skills as Open Standard

5-4. 한국에서의 시사점

제6장: 적용 가이드와 한계

6-1. 시작하는 가장 빠른 방법

6-2. 어디서 작동하고 어디서 안 되는가

6-3. 솔직한 한계

6-4. 어디까지 일반화 가능한가

마치며: 도구가 도구를 만드는 시대로

참고 자료

관련 포스트

도구는 많은데 왜 못 쓸까: '스킬'이 AI 에이전트의 새로운 단위가 되기까지

루프를 쌓는 기술: LangChain이 그린 '4중 루프'와 스스로 진화하는 에이전트

스스로 진화하는 AI, 그런데 진화할수록 잊는다: 자기진화 에이전트와 '능력 침식'

동료가 퇴사해도 그의 '판단'은 남는다: COLLEAGUE.SKILL과 사람을 증류하는 AI의 시대