
Codex의 탄생 — HumanEval에서 Computer Use까지 (Codex Use Cases 특집 1)
코드 자동완성에서 '내 컴퓨터로 일을 끝내는 에이전트'가 되기까지 — Codex의 5년 역사와 벤치마크, 4-표면 아키텍처, 에이전틱 루프를 비유와 사례로 쉽게 풉니다. Codex Use Cases 특집 1편.

코드 자동완성에서 '내 컴퓨터로 일을 끝내는 에이전트'가 되기까지 — Codex의 5년 역사와 벤치마크, 4-표면 아키텍처, 에이전틱 루프를 비유와 사례로 쉽게 풉니다. Codex Use Cases 특집 1편.

2026년 5월, 개발자 커뮤니티에서 조용히 화제가 된 페이지가 하나 있습니다. OpenAI가 공개한 Codex Use Cases 모음집입니다. 그런데 막상 열어보면 고개를 갸웃하게 됩니다. 50개가 넘는 사례 중 절반 가까이가 "코딩"이 아니거든요.
이름은 분명 "Codex(코덱스)" — code에서 따온, 코드 생성 모델의 이름입니다. 그런데 2026년의 Codex는 코드를 짜는 도구라기보다 컴퓨터로 하는 일이라면 무엇이든 대신 해주는 에이전트에 가까워졌습니다. 어쩌다 "코드 자동완성기"가 "디지털 일꾼"이 되었을까요?
이 글은 그 변화를 처음부터 끝까지 따라가는 특집 시리즈의 1편입니다. 오늘은 역사와 벤치마크, 그리고 아키텍처라는 "토대"를 깔겠습니다. 용어가 생소해도 괜찮습니다. 비유와 그림으로 하나씩 풀어갈 테니까요.

이 시리즈에서 다룰 내용 (총 6편)
- (이번 글) Codex의 탄생 — 역사 · 벤치마크 · 아키텍처
- 엔지니어를 위한 Codex
- 디자이너 · 프론트엔드 워크플로우
- iOS · macOS 네이티브 개발
- Knowledge Work — 파이낸스 · 오퍼레이션 · 세일즈
- Computer Use & 자동화
먼저 가장 큰 혼란부터 정리하고 가겠습니다. "Codex"라는 이름은 역사상 두 번 등장합니다. 그리고 둘은 완전히 다른 것입니다.
이 둘을 헷갈리면 이야기가 꼬입니다. 2021년 Codex는 "다음에 올 코드를 예측해서 채워주는" 자동완성에 가까웠습니다. 반면 2025년 이후의 Codex는 "목표를 주면 스스로 터미널을 두드리고, 테스트를 돌리고, 결과를 보고 다시 시도하는" 일꾼입니다. 같은 이름을 쓰지만, 사이에 2년의 공백과 한 번의 죽음과 부활이 있습니다.
자, 그 5년의 여정을 타임라인으로 먼저 훑어봅시다. 아래는 클릭해서 탐색할 수 있는 연대기입니다.
이야기는 「Evaluating Large Language Models Trained on Code」라는 논문에서 시작됩니다(arXiv 2107.03374). OpenAI가 GitHub의 공개 코드로 GPT를 미세조정해 만든 모델이 바로 첫 번째 Codex입니다. 가장 큰 모델이 120억(12B) 파라미터였죠. 지금 기준으로는 아담한 크기입니다.
이 논문이 역사에 남은 진짜 이유는 모델 자체가 아니라, 함께 제안한 시험지 때문입니다. 바로 HumanEval입니다. 손으로 직접 짠 파이썬 문제 164개로 구성되어 있고, 각 문제는 함수 서명과 설명(docstring)만 주어집니다. 모델은 함수 본문을 채워야 하고, 채점은 숨겨둔 단위 테스트로 합니다.
"사람이 시험 문제를 내고, 컴퓨터가 자동 채점한다" — HumanEval은 코드 AI를 객관적으로 비교할 수 있게 만든 첫 표준 자(尺)였습니다.
결과는 당시로선 충격적이었습니다.
여기서 잠깐 pass@k라는 용어를 짚고 가겠습니다. 별것 아닙니다.
pass@k = "모델에게 k번 답을 뽑게 했을 때, 그중 하나라도 정답일 확률"
pass@1은 한 번에 맞히는 능력, pass@100은 100번 시도 중 한 번이라도 맞히면 인정하는 관대한 기준입니다. 위 차트에서 Codex가 pass@1로는 28.8%지만 pass@100으로는 77.5%까지 치솟는 걸 보세요. "한 방에 맞히진 못해도, 여러 번 시도하면 꽤 맞힌다" — 이 성질은 훗날 에이전트가 "스스로 여러 번 시도하고 테스트로 걸러내는" 방식으로 이어집니다. 기억해 두세요.
Codex는 곧 제품이 됩니다. GitHub Copilot입니다. 2021년 6월 29일 기술 프리뷰로 공개되었고, 2022년 6월 21일 유료 정식 출시되었습니다. 코드를 짜다 보면 회색 글씨로 다음 줄을 제안해주던 그 기능, 기억하시죠? 그 두뇌가 Codex였습니다. "AI 짝코딩(pair programmer)"이라는 말이 이때 퍼졌습니다.
그런데 2023년 3월 23일, OpenAI는 Codex 전용 API를 단종시킵니다. 이유는 역설적입니다. GPT-3.5와 GPT-4가 코딩까지 더 잘하게 되었기 때문입니다. 굳이 코드 전용 모델을 따로 둘 이유가 없어진 거죠. 이렇게 "Codex"라는 이름은 약 2년간 무대에서 사라집니다.
그리고 2025년, "Codex"가 돌아옵니다. 그런데 같은 이름, 전혀 다른 물건입니다.
여기서 핵심은 단어 하나입니다. 에이전트. 2021년 Codex가 "다음 단어를 예측하는" 모델이었다면, 2025년 Codex는 "목표를 받아 스스로 행동하는" 시스템입니다. 그 차이를 제대로 이해하려면, 먼저 "이 녀석이 도대체 무슨 시험을 통과했길래 일을 맡겨도 되는가"를 알아야 합니다. 벤치마크 이야기로 넘어가죠.
AI 뉴스를 보면 "SWE-bench 75% 달성!" 같은 숫자가 쏟아집니다. 그런데 이게 대체 무슨 의미일까요? 시험마다 재는 능력이 다릅니다. 학교 시험에 빗대면 이해가 쉽습니다.

| 벤치마크 | 무엇을 재나 | 학교 시험에 비유하면 | 2025~26 수준 |
|---|---|---|---|
| HumanEval | 함수 하나를 설명대로 채우기 | *단답형 코딩 퀴즈* | ~93–95% (포화) |
| MBPP | 입문 수준 파이썬 문제 | *기초 받아쓰기* | 사실상 포화 |
| SWE-bench Verified | 실제 GitHub 버그를 코드베이스에서 고치기 | *실전 수행평가* | ~75–80% (단, 부풀려짐) |
| SWE-Lancer | 돈이 걸린 실제 프리랜스 작업 | *인턴 실무 OJT* | 상당수 미해결 |
| OSWorld | 실제 OS/앱을 마우스로 조작 | *컴퓨터 활용 실기* | 사람과 격차 큼 |
| Terminal-Bench | 터미널에서 자율적으로 일 끝내기 | *무감독 자율과제* | ~77–83% |
HumanEval과 MBPP는 한때 최고 난도였지만, 지금은 최상위 모델들이 93~95%를 받습니다. 거의 만점이라 더 이상 모델 간 우열을 가리지 못합니다. 이걸 "포화(saturation)"라고 합니다. 시험이 너무 쉬워져서 변별력을 잃은 상태죠. 그래서 요즘 "HumanEval 95%!"라는 자랑은 큰 의미가 없습니다. 마치 어른에게 구구단 시험을 보게 하는 셈입니다.
판을 바꾼 건 SWE-bench입니다. 방식이 완전히 다릅니다.
HumanEval이 "이 함수 빈칸 채우기"라면, SWE-bench는 "수십만 줄짜리 낯선 프로젝트에서 진짜 버그를 찾아 고치기"입니다. 깔끔한 문제 설명도 없고, 어느 파일을 봐야 할지도 알려주지 않습니다. 현실 그 자체죠. SWE-bench Verified는 그중에서도 사람이 직접 검수해 "정말 풀 수 있는 문제"만 500개 추린 버전입니다.
20252026년 프런티어 모델들은 여기서 흔히 7580%를 기록합니다. 인상적인 숫자지만, 곧이곧대로 믿으면 안 됩니다. 세 가지 이유가 있습니다.
OpenAI가 2025년 초 내놓은 SWE-Lancer는 한층 더 현실적입니다. Upwork(프리랜서 플랫폼)에서 실제로 돈이 걸렸던 소프트웨어 작업 1,400여 개를 모았고, 총상금이 100만 달러에 달합니다. 50달러짜리 버그 수정부터 3만 2,000달러짜리 기능 개발까지 있죠. 채점 기준이 "테스트 통과"가 아니라 "얼마를 벌었나"입니다.
결과는 겸손해집니다. 발표 시점 최고 모델조차 개별 작업의 약 26%만 해결했고, 100만 달러 중 약 40만 달러어치만 벌었습니다. "실제로 돈을 받는 일"의 절반 이상은 여전히 AI가 해내지 못한다는 뜻입니다.
마지막으로 이 시리즈에서 가장 중요한 벤치마크, OSWorld입니다. 여기서는 에이전트가 코드를 짜는 게 아니라 실제 운영체제와 앱을 마우스·키보드로 직접 조작해 369개 과제를 수행합니다. 파일 정리, 브라우저 작업, 앱 설정 변경 같은 것들이죠.
이 격차를 보세요. 코딩 시험에서는 AI가 사람을 위협하는데, 컴퓨터를 "직접 손으로 쓰는" 일에서는 처참할 만큼 못했습니다. 화면에서 버튼이 어디 있는지 찾고(grounding), 수십 단계를 실수 없이 이어가는 게 그만큼 어렵기 때문입니다. 2025~26년 들어 이 점수는 크게 올랐지만 여전히 사람에 못 미칩니다. 바로 이 어려운 영역에 도전하는 것이 2026년 Codex의 "Computer Use"입니다. (8장에서 자세히 다룹니다.)
독자를 위한 한 줄 요약: HumanEval 점수는 이제 의미가 작습니다. SWE-bench와 OSWorld가 진짜 실력을 보여주는 지표입니다 — 단, 항상 회의적으로 읽으세요.
이제 본격적으로 "2026년 Codex가 어떻게 생겼는가"를 봅시다. 가장 먼저 이해할 개념은 표면(surface)입니다.
Codex는 한 가지 모습이 아닙니다. 같은 에이전트를 터미널에서도, 코드 에디터 안에서도, 클라우드에서도, 데스크톱 앱에서도 부를 수 있습니다. 중요한 건, 이들이 같은 두뇌(모델)·같은 설정(config.toml)·같은 도구(MCP·Skills)를 공유한다는 점입니다. 옷만 갈아입을 뿐, 안에 든 비서는 동일인입니다.

각 표면을 한 줄로 정리하면 이렇습니다.
@codex라고 태그하면, 알아서 작업해서 diff(코드 변경분)나 풀 리퀘스트로 돌려줍니다. 노트북을 꺼도 클라우드에서 계속 일합니다.비유: 같은 비서를 전화(CLI)로도, 사무실 옆자리(IDE)로도, 출장 보내서(클라우드) 결과만 받기로도, 집에 불러서(데스크톱) 같이 일하기로도 쓸 수 있다고 생각하면 됩니다. 비서는 한 명, 부르는 창구가 네 개입니다.
표면을 알았으니, 이제 그 안에서 실제로 무슨 일이 벌어지는가를 봅시다. 핵심은 에이전틱 루프(agentic loop)입니다.

2021년 Codex가 "한 번에 답을 뱉는" 모델이었다는 걸 기억하시죠? 에이전트는 다릅니다. 생각하고 → 행동하고 → 결과를 보고 → 다시 생각합니다. 이 아이디어의 뿌리는 2022~2023년의 연구들입니다.
앞서 봤던 pass@k 기억나시나요? "한 번엔 못 맞혀도 여러 번 시도하면 맞힌다"는 그 성질을, 에이전트는 테스트라는 자동 채점기와 결합해 활용합니다. 짜보고 → 돌려보고 → 틀리면 → 고쳐서 다시. 사람이 코딩하는 방식 그대로죠.
여기서 harness(하니스)라는 용어가 등장합니다. 생소하죠? 어렵지 않습니다.
harness = 똑똑하지만 "손발이 없는" 모델과, 실제 컴퓨터(파일·터미널·네트워크) 사이를 중개하는 프로그램.
모델은 "이 파일을 읽어줘", "이 테스트를 돌려줘" 같은 명령을 글로 뱉을 뿐입니다. 그 명령을 실제로 실행하고, 결과를 다시 모델에게 글로 전달해주는 일꾼이 harness입니다. Codex의 경우, CLI 자체(Rust로 만든 프로그램)가 harness 역할을 합니다. harness가 하는 일을 정리하면:
harness가 모델에게 쥐여주는 도구는 파일 읽기/편집, 셸 명령 실행, 웹 검색, 이미지 입출력, 그리고 MCP 도구와 서브에이전트(일을 병렬로 쪼개는 보조 에이전트)까지 다양합니다.
말로만 들으면 추상적이죠. 아래 시뮬레이터로 "Codex가 풀 리퀘스트 하나를 검토하는 과정"을 단계별로 따라가 보세요. 계획(Plan) → 실행(Act) → 관찰(Observe) → 수정(Revise)이 어떻게 맞물리는지 보입니다.
보셨나요? 에이전트는 코드를 무작정 고치지 않았습니다. 변경된 파일을 읽고 → 직접 테스트를 돌려보고 → 커버리지 공백을 발견하고 → 사람이 판단하도록 근거와 함께 코멘트를 남겼습니다. 이게 "한 방에 답을 뱉는 모델"과 "스스로 일하는 에이전트"의 결정적 차이입니다.
여기서 누구나 떠올리는 불안이 있습니다. "AI한테 내 터미널을 맡긴다고? 실수로 파일을 다 지우거나, 이상한 걸 인터넷에 올리면 어쩌지?" 합리적인 걱정입니다. 그래서 Codex 아키텍처에서 가장 중요한 부분이 바로 샌드박스(sandbox)입니다.
샌드박스 = 아이가 다쳐도 크게 다치지 않도록 안전 펜스를 친 모래 놀이터. 에이전트는 그 안에서만 뛰놀 수 있습니다.
Codex는 운영체제가 제공하는 진짜 보안 장치를 씁니다. 마케팅 문구가 아니라 OS 커널 수준의 격리입니다.
| 운영체제 | 사용하는 격리 기술 | 한마디로 |
|---|---|---|
| macOS | Seatbelt (sandbox-exec) | 애플 기본 내장, 설치 불필요 |
| Linux / WSL2 | Bubblewrap + seccomp | 컨테이너처럼 시스템콜을 제한 |
| Windows | 네이티브 Windows 샌드박스 | PowerShell 환경에서 격리 |
그리고 두 개의 손잡이로 자유도를 조절합니다. 샌드박스 모드(무엇을 만질 수 있나)와 승인 정책(언제 사람에게 물어보나)입니다.
--yolo). 신뢰할 때만, 신중히특히 중요한 두 가지 기본값이 있습니다.
on-request: 평소엔 알아서 일하다가, *작업 폴더 밖을 건드리거나 네트워크가 필요한* 등 샌드박스를 벗어나는 순간에만 사람에게 허락을 구합니다. (untrusted/never로 더 빡빡하거나 느슨하게 조절 가능.).git이나 .codex 같은 민감한 폴더는 어떤 모드에서도 읽기 전용입니다. "안전 펜스" 덕분에 *자율성과 안전*을 동시에 챙깁니다.이 "안전 펜스" 설계가 있기에, 우리는 에이전트에게 더 큰 자유를 줄 수 있습니다. 자율성과 통제는 상충하는 게 아니라, 좋은 샌드박스 위에서 함께 갑니다.
에이전트가 똑똑해도, 결국 할 수 있는 일은 가진 도구만큼입니다. Codex가 능력을 확장하는 방법은 크게 두 가지입니다. 헷갈리기 쉬우니 표로 먼저 구분합시다.
| 구분 | MCP | Skills |
|---|---|---|
| 한마디로 | 에이전트의 *USB 포트* | 사람이 짜준 *절차 메모* |
| 주는 것 | 새로운 *능력*(외부 도구 연결) | 기존 능력의 *사용법*(반복 작업 정형화) |
| 예시 | Slack·DB·Figma에 연결 | "릴리스 노트 만드는 법" 같은 워크플로 |
| 형태 | 실행되는 서버(프로그램) | SKILL.md 문서 파일 |
MCP(Model Context Protocol)는 AI가 외부 도구·데이터와 연결되는 표준 규격입니다. USB가 마우스든 키보드든 외장하드든 같은 포트로 꽂게 해주듯, MCP는 Slack이든 데이터베이스든 Figma든 같은 방식으로 에이전트에 연결합니다. (MCP 자체가 궁금하다면 별도 시리즈에서 깊게 다뤘습니다.)
Codex의 재미있는 점은 MCP의 양쪽 모두가 된다는 것입니다.
codex mcp-server로 자기 자신을 노출. 다른 에이전트가 Codex를 호출(codex() / codex-reply())즉, Codex는 다른 도구를 부려 쓰는 동시에, 다른 AI 시스템에게 부려 쓰일 수도 있습니다. 레고 블록처럼 에이전트끼리 조립되는 시대의 설계죠.
Skills는 자주 하는 작업을 정형화한 폴더입니다. 안에 SKILL.md라는 설명서를 넣어 "이런 요청이 오면 이런 순서로 처리해" 하고 알려줍니다. 신입에게 건네는 업무 매뉴얼과 같습니다.
비슷한 친구로 AGENTS.md가 있습니다. 프로젝트 루트에 두는 파일로, "이 저장소에서는 이런 규칙을 지켜라(코드 스타일, 테스트 방법, 금지 사항 등)"를 적어두면 Codex가 작업 전에 읽고 맥락을 잡습니다. 사람 신입에게 건네는 온보딩 문서라고 보면 됩니다. 흥미롭게도, 지금 당신이 읽는 이 블로그 저장소에도 CLAUDE.md라는 비슷한 성격의 안내 파일이 있습니다 — AI 협업이 표준이 된 시대의 풍경입니다.
자, 이제 2026년에 가장 화제가 된 기능입니다. 앞서 OSWorld 벤치마크에서 본 "AI가 가장 못하던 영역" — 컴퓨터를 직접 손으로 쓰는 일 — 에 정면으로 도전하는 Computer Use입니다.

지금까지의 Codex는 "터미널과 파일"을 다뤘습니다. Computer Use는 한 발 더 나아가, 화면을 눈으로 보고 GUI 앱을 직접 조작합니다. 2026년 4월 등장한 이 기능으로 Codex는 이런 일을 합니다.
기술적으로 흥미로운 점이 두 가지 있습니다.
첫째, macOS에서는 백그라운드로 작동합니다. 보통 자동화 도구는 마우스를 가로채서 사용자가 아무것도 못 하게 만들죠. 하지만 Codex는 화면 녹화·손쉬운 사용 권한을 받아 포커스를 빼앗지 않고 뒤에서 일합니다. 여러 에이전트가 각자 커서를 들고 병렬로 일할 수도 있습니다. OpenAI는 이를 가능하게 하는 "Cua Driver"라는 macOS 드라이버를 오픈소스로 공개했습니다. 사용은 @Computer나 @앱이름을 불러 시작합니다.
둘째, 이것이 왜 어려운가입니다. OSWorld에서 봤듯, 화면에서 버튼의 위치를 정확히 짚고(이를 "grounding"이라 합니다) 수십 단계를 실수 없이 잇는 건 코드를 짜는 것과는 다른 종류의 난제입니다. 그래서 Computer Use는 강력한 만큼 아직 발전 중인 영역입니다.
사실 확인 메모: Computer Use가 OpenAI의 Operator를 움직이는 'CUA(Computer-Using Agent)' 모델을 그대로 쓰는지는 공식 문서에 명시되어 있지 않습니다. 다만 "Operator로 시작된 컴퓨터 조작 에이전트 계보의 연장선"으로 이해하면 무리가 없습니다. (참고로, 일부에서 언급되는 'Codex Max'라는 모델은 실재하지 않으니 주의하세요.)
이제 처음의 질문으로 돌아갑시다. 어쩌다 "코드 자동완성기"가 "디지털 일꾼"이 되었을까?
지금까지의 조각을 맞춰보면 그림이 보입니다.
이 네 가지가 합쳐지자, Codex는 더 이상 "코드"라는 좁은 영역에 머물 이유가 없어졌습니다. 컴퓨터로 할 수 있는 일이라면 무엇이든 대상이 된 것입니다. 그래서 use cases 페이지의 절반이 코딩이 아닌 거죠. OpenAI가 페이지 맨 위에 내건 세 가지 대표 사례를 보면 방향이 분명합니다.
| 대표 사례 | 하는 일 | 의미 |
|---|---|---|
| Manage Your Inbox | 중요한 메일을 찾아 *내 말투로* 답장 초안 작성 | 코드가 아닌 *지식 노동* |
| Use Your Computer | Mac에서 직접 *클릭·타이핑·앱 조작* | 화면 너머의 *실제 행동* |
| Follow a Goal | 장기 목표를 주면 *오래 이어서* 수행 (Goal Mode) | 일회성 작업이 아닌 *지속적 책임* |
그렇다면 사람의 자리는 어디일까요? 답은 앞서 본 벤치마크에 있습니다. SWE-Lancer에서 AI는 돈 받는 일의 절반도 끝내지 못했고, OSWorld에서는 사람과의 격차가 여전합니다. 실행은 점점 에이전트의 몫이 되지만, 무엇을 할지 정하고(목표 설정) 결과가 옳은지 판단하는 일(검증)은 여전히 사람의 몫입니다. 2026년의 진짜 변화는 "사람이 필요 없어지는 것"이 아니라, 사람이 일하는 층위가 한 단계 올라가는 것입니다. 타이핑하는 사람에서, 방향을 정하고 검수하는 사람으로요.
오늘은 토대를 깔았습니다. 두 개의 Codex(모델 vs 에이전트), 시험지를 읽는 법(벤치마크), 그리고 네 개의 표면 · 에이전틱 루프 · 샌드박스 · MCP/Skills · Computer Use라는 아키텍처의 다섯 기둥까지. 이제 이 토대 위에서, 역할별로 Codex가 실제로 어떻게 쓰이는지를 사례 중심으로 파고들 차례입니다.

**다음 편(2화) — 「엔지니어를 위한 Codex」**에서는 가장 본진인 개발 현장을 다룹니다.
시리즈 인덱스
- (현재 글) Codex의 탄생 — 역사 · 벤치마크 · 아키텍처
- 엔지니어를 위한 Codex
- 디자이너 · 프론트엔드 워크플로우
- iOS · macOS 네이티브 개발
- Knowledge Work — 파이낸스 · 오퍼레이션 · 세일즈
- Computer Use & 자동화
이 글은 코어닷투데이의 "Codex Use Cases 특집" 시리즈 1편입니다. 사실관계는 2026년 5월 기준이며, 모델 버전·기능은 빠르게 바뀔 수 있습니다.