OpenAICodexAI 에이전트코딩 에이전트gpt-5-codexComputer Use

Codex의 탄생 — HumanEval에서 Computer Use까지 (Codex Use Cases 특집 1)

코드 자동완성에서 '내 컴퓨터로 일을 끝내는 에이전트'가 되기까지 — Codex의 5년 역사와 벤치마크, 4-표면 아키텍처, 에이전틱 루프를 비유와 사례로 쉽게 풉니다. Codex Use Cases 특집 1편.

코어닷 AI2026-05-2948분

2026년 5월, 개발자 커뮤니티에서 조용히 화제가 된 페이지가 하나 있습니다. OpenAI가 공개한 Codex Use Cases 모음집입니다. 그런데 막상 열어보면 고개를 갸웃하게 됩니다. 50개가 넘는 사례 중 절반 가까이가 "코딩"이 아니거든요.

"받은 편지함을 정리하고, 내 말투로 답장 초안을 써줘."
"이 Mac 앱을 직접 클릭하면서 결제 흐름을 테스트하고, 깨지는 곳을 기록해줘."
"이 회사의 3개월 현금흐름을 예측해서 유동성이 가장 바닥나는 시점을 찾아줘."
"회의록을 보고 후속 작업을 캘린더와 Slack에 정리해줘."

이름은 분명 "Codex(코덱스)" — code에서 따온, 코드 생성 모델의 이름입니다. 그런데 2026년의 Codex는 코드를 짜는 도구라기보다 컴퓨터로 하는 일이라면 무엇이든 대신 해주는 에이전트에 가까워졌습니다. 어쩌다 "코드 자동완성기"가 "디지털 일꾼"이 되었을까요?

이 글은 그 변화를 처음부터 끝까지 따라가는 특집 시리즈의 1편입니다. 오늘은 역사와 벤치마크, 그리고 아키텍처라는 "토대"를 깔겠습니다. 용어가 생소해도 괜찮습니다. 비유와 그림으로 하나씩 풀어갈 테니까요.

크게 보기

이 시리즈에서 다룰 내용 (총 6편)

(이번 글) Codex의 탄생 — 역사 · 벤치마크 · 아키텍처

엔지니어를 위한 Codex

디자이너 · 프론트엔드 워크플로우

iOS · macOS 네이티브 개발

Knowledge Work — 파이낸스 · 오퍼레이션 · 세일즈

Computer Use & 자동화

1. 두 개의 "Codex" — 같은 이름, 다른 존재

먼저 가장 큰 혼란부터 정리하고 가겠습니다. "Codex"라는 이름은 역사상 두 번 등장합니다. 그리고 둘은 완전히 다른 것입니다.

2021년의 Codex = 모델. GitHub Copilot의 두뇌였던 코드 생성 AI.
2025년의 Codex = 제품. 스스로 명령을 실행하고 파일을 고치는 에이전트.

이 둘을 헷갈리면 이야기가 꼬입니다. 2021년 Codex는 "다음에 올 코드를 예측해서 채워주는" 자동완성에 가까웠습니다. 반면 2025년 이후의 Codex는 "목표를 주면 스스로 터미널을 두드리고, 테스트를 돌리고, 결과를 보고 다시 시도하는" 일꾼입니다. 같은 이름을 쓰지만, 사이에 2년의 공백과 한 번의 죽음과 부활이 있습니다.

자, 그 5년의 여정을 타임라인으로 먼저 훑어봅시다. 아래는 클릭해서 탐색할 수 있는 연대기입니다.

2. 짧은 역사 — 죽었다 살아난 이름

2021년 7월 — HumanEval과 함께 태어나다

이야기는 「Evaluating Large Language Models Trained on Code」라는 논문에서 시작됩니다(arXiv 2107.03374). OpenAI가 GitHub의 공개 코드로 GPT를 미세조정해 만든 모델이 바로 첫 번째 Codex입니다. 가장 큰 모델이 120억(12B) 파라미터였죠. 지금 기준으로는 아담한 크기입니다.

이 논문이 역사에 남은 진짜 이유는 모델 자체가 아니라, 함께 제안한 시험지 때문입니다. 바로 HumanEval입니다. 손으로 직접 짠 파이썬 문제 164개로 구성되어 있고, 각 문제는 함수 서명과 설명(docstring)만 주어집니다. 모델은 함수 본문을 채워야 하고, 채점은 숨겨둔 단위 테스트로 합니다.

"사람이 시험 문제를 내고, 컴퓨터가 자동 채점한다" — HumanEval은 코드 AI를 객관적으로 비교할 수 있게 만든 첫 표준 자(尺)였습니다.

결과는 당시로선 충격적이었습니다.

HumanEval 정답률 (2021년 논문, pass@1 기준)

GPT-3

0% — 코드를 거의 못 짬

Codex

28.8% — 일반 GPT 대비 압도적

Codex-S

37.7% — 추가 미세조정 버전

Codex (100번 시도 중 1개라도)

77.5% — pass@100

여기서 잠깐 pass@k라는 용어를 짚고 가겠습니다. 별것 아닙니다.

pass@k = "모델에게 k번 답을 뽑게 했을 때, 그중 하나라도 정답일 확률"

pass@1은 한 번에 맞히는 능력, pass@100은 100번 시도 중 한 번이라도 맞히면 인정하는 관대한 기준입니다. 위 차트에서 Codex가 pass@1로는 28.8%지만 pass@100으로는 77.5%까지 치솟는 걸 보세요. "한 방에 맞히진 못해도, 여러 번 시도하면 꽤 맞힌다" — 이 성질은 훗날 에이전트가 "스스로 여러 번 시도하고 테스트로 걸러내는" 방식으로 이어집니다. 기억해 두세요.

2021~2022년 — Copilot, IDE 안으로 들어오다

Codex는 곧 제품이 됩니다. GitHub Copilot입니다. 2021년 6월 29일 기술 프리뷰로 공개되었고, 2022년 6월 21일 유료 정식 출시되었습니다. 코드를 짜다 보면 회색 글씨로 다음 줄을 제안해주던 그 기능, 기억하시죠? 그 두뇌가 Codex였습니다. "AI 짝코딩(pair programmer)"이라는 말이 이때 퍼졌습니다.

2023년 3월 — 이름이 사라지다

그런데 2023년 3월 23일, OpenAI는 Codex 전용 API를 단종시킵니다. 이유는 역설적입니다. GPT-3.5와 GPT-4가 코딩까지 더 잘하게 되었기 때문입니다. 굳이 코드 전용 모델을 따로 둘 이유가 없어진 거죠. 이렇게 "Codex"라는 이름은 약 2년간 무대에서 사라집니다.

2025년 — 완전히 다른 모습으로 부활

그리고 2025년, "Codex"가 돌아옵니다. 그런데 같은 이름, 전혀 다른 물건입니다.

2025.04

Codex CLI 등장. 터미널에서 도는 오픈소스(Apache 2.0) 코딩 에이전트. 더 이상 자동완성이 아니라 스스로 명령을 실행하는 에이전트.

2025.05

ChatGPT 속 Codex 클라우드 에이전트. 클라우드에서 비동기로 일하며 작업을 맡기면 diff나 풀 리퀘스트(PR)를 돌려줌.

2025.09

gpt-5-codex 모델 공개. 에이전틱 코딩에 특화. 내부 테스트에서 7시간 넘게 혼자 작업을 이어갔다고 보고.

2025.10~2026

정식 출시(GA) — Slack 연동·SDK·관리자 도구. 이후 IDE 확장과 개선된 모델들, 그리고 Computer Use·Goal Mode까지.

여기서 핵심은 단어 하나입니다. 에이전트. 2021년 Codex가 "다음 단어를 예측하는" 모델이었다면, 2025년 Codex는 "목표를 받아 스스로 행동하는" 시스템입니다. 그 차이를 제대로 이해하려면, 먼저 "이 녀석이 도대체 무슨 시험을 통과했길래 일을 맡겨도 되는가"를 알아야 합니다. 벤치마크 이야기로 넘어가죠.

3. 벤치마크 쉽게 읽기 — "어떤 시험을 봤나"

AI 뉴스를 보면 "SWE-bench 75% 달성!" 같은 숫자가 쏟아집니다. 그런데 이게 대체 무슨 의미일까요? 시험마다 재는 능력이 다릅니다. 학교 시험에 빗대면 이해가 쉽습니다.

크게 보기

벤치마크	무엇을 재나	학교 시험에 비유하면	2025~26 수준
HumanEval	함수 하나를 설명대로 채우기	단답형 코딩 퀴즈	~93–95% (포화)
MBPP	입문 수준 파이썬 문제	기초 받아쓰기	사실상 포화
SWE-bench Verified	실제 GitHub 버그를 코드베이스에서 고치기	실전 수행평가	~75–80% (단, 부풀려짐)
SWE-Lancer	돈이 걸린 실제 프리랜스 작업	인턴 실무 OJT	상당수 미해결
OSWorld	실제 OS/앱을 마우스로 조작	컴퓨터 활용 실기	사람과 격차 큼
Terminal-Bench	터미널에서 자율적으로 일 끝내기	무감독 자율과제	~77–83%

"단답형 퀴즈"는 이미 졸업했다 — HumanEval

HumanEval과 MBPP는 한때 최고 난도였지만, 지금은 최상위 모델들이 93~95%를 받습니다. 거의 만점이라 더 이상 모델 간 우열을 가리지 못합니다. 이걸 "포화(saturation)"라고 합니다. 시험이 너무 쉬워져서 변별력을 잃은 상태죠. 그래서 요즘 "HumanEval 95%!"라는 자랑은 큰 의미가 없습니다. 마치 어른에게 구구단 시험을 보게 하는 셈입니다.

진짜 시험 — SWE-bench Verified

판을 바꾼 건 SWE-bench입니다. 방식이 완전히 다릅니다.

실제 오픈소스 저장소의 진짜 GitHub 이슈(버그 리포트)를 준다

↓

에이전트가 거대한 코드베이스를 스스로 탐색해 원인을 찾는다

↓

수정 패치(diff)를 만든다

↓

저장소의 숨겨둔 테스트를 통과해야 "해결" 인정

HumanEval이 "이 함수 빈칸 채우기"라면, SWE-bench는 "수십만 줄짜리 낯선 프로젝트에서 진짜 버그를 찾아 고치기"입니다. 깔끔한 문제 설명도 없고, 어느 파일을 봐야 할지도 알려주지 않습니다. 현실 그 자체죠. SWE-bench Verified는 그중에서도 사람이 직접 검수해 "정말 풀 수 있는 문제"만 500개 추린 버전입니다.

2025~2026년 프런티어 모델들은 여기서 흔히 75~80%를 기록합니다. 인상적인 숫자지만, 곧이곧대로 믿으면 안 됩니다. 세 가지 이유가 있습니다.

문제 — 점수는 부풀려지기 쉽다

대부분 점수는 모델 제작사가 스스로 보고한 값입니다. 또 한 연구(SWE-ABS)에서는 '해결됐다'고 표시된 패치 5개 중 1개가 의미상 틀렸는데도 허술한 테스트를 통과했다고 지적했습니다.

✓

검증 — 테스트를 더 빡빡하게

같은 연구가 테스트를 강화하자, 한 최상위 에이전트의 점수가 약 79%에서 62%로 떨어졌습니다. '테스트만 통과'와 '진짜로 올바름'은 다릅니다.

→

결론 — 숫자는 방향, 맹신은 금물

SWE-bench 점수는 능력의 방향을 알려주는 좋은 지표지만, 헤드라인 %는 낙관적으로 읽어야 합니다. "이만큼 발전했다"는 OK, "이제 사람이 필요 없다"는 NO.

돈이 걸린 시험 — SWE-Lancer

OpenAI가 2025년 초 내놓은 SWE-Lancer는 한층 더 현실적입니다. Upwork(프리랜서 플랫폼)에서 실제로 돈이 걸렸던 소프트웨어 작업 1,400여 개를 모았고, 총상금이 100만 달러에 달합니다. 50달러짜리 버그 수정부터 3만 2,000달러짜리 기능 개발까지 있죠. 채점 기준이 "테스트 통과"가 아니라 "얼마를 벌었나"입니다.

결과는 겸손해집니다. 발표 시점 최고 모델조차 개별 작업의 약 26%만 해결했고, 100만 달러 중 약 40만 달러어치만 벌었습니다. "실제로 돈을 받는 일"의 절반 이상은 여전히 AI가 해내지 못한다는 뜻입니다.

컴퓨터를 직접 만지는 시험 — OSWorld

마지막으로 이 시리즈에서 가장 중요한 벤치마크, OSWorld입니다. 여기서는 에이전트가 코드를 짜는 게 아니라 실제 운영체제와 앱을 마우스·키보드로 직접 조작해 369개 과제를 수행합니다. 파일 정리, 브라우저 작업, 앱 설정 변경 같은 것들이죠.

OSWorld — 사람 vs AI (벤치마크 공개 초기 기준)

사람

약 72%

당시 최고 AI

약 12%

이 격차를 보세요. 코딩 시험에서는 AI가 사람을 위협하는데, 컴퓨터를 "직접 손으로 쓰는" 일에서는 처참할 만큼 못했습니다. 화면에서 버튼이 어디 있는지 찾고(grounding), 수십 단계를 실수 없이 이어가는 게 그만큼 어렵기 때문입니다. 2025~26년 들어 이 점수는 크게 올랐지만 여전히 사람에 못 미칩니다. 바로 이 어려운 영역에 도전하는 것이 2026년 Codex의 "Computer Use"입니다. (8장에서 자세히 다룹니다.)

독자를 위한 한 줄 요약: HumanEval 점수는 이제 의미가 작습니다. SWE-bench와 OSWorld가 진짜 실력을 보여주는 지표입니다 — 단, 항상 회의적으로 읽으세요.

4. 아키텍처 (1) — 하나의 에이전트, 네 개의 표면

이제 본격적으로 "2026년 Codex가 어떻게 생겼는가"를 봅시다. 가장 먼저 이해할 개념은 표면(surface)입니다.

Codex는 한 가지 모습이 아닙니다. 같은 에이전트를 터미널에서도, 코드 에디터 안에서도, 클라우드에서도, 데스크톱 앱에서도 부를 수 있습니다. 중요한 건, 이들이 같은 두뇌(모델)·같은 설정(config.toml)·같은 도구(MCP·Skills)를 공유한다는 점입니다. 옷만 갈아입을 뿐, 안에 든 비서는 동일인입니다.

크게 보기

하나의 Codex 에이전트 → 네 개의 표면

Codex 에이전트 코어 gpt-5-codex · config · MCP · Skills 계획·실행·관찰의 두뇌. 모든 표면이 공유

↓

CLI 터미널 (Rust 앱) 내 컴퓨터에서 직접 실행. 개발자의 홈그라운드

IDE 확장 VS Code · Cursor · JetBrains 에디터 안에서 코드 곁에 두고 협업

클라우드 / 웹 격리된 클라우드 컨테이너 비동기로 일하고 diff/PR을 반환. @codex 태그

데스크톱 앱 + Chrome 확장 사이드바·스레드·리뷰 패널. Computer Use의 무대

각 표면을 한 줄로 정리하면 이렇습니다.

CLI — 터미널에서 도는 Rust 앱. 개발자가 가장 많이 쓰는 표면입니다. 내 컴퓨터의 파일을 직접 읽고 고치고 명령을 실행합니다.
IDE 확장 — VS Code, Cursor, 그리고 JetBrains 계열 에디터 안에 들어갑니다. 코드를 보면서 바로 옆에서 일을 시킬 수 있죠.
클라우드/웹 — 가장 흥미로운 표면입니다. 내 컴퓨터가 아니라 격리된 클라우드 컨테이너에서 작업이 돌아갑니다. GitHub 이슈나 PR에 @codex라고 태그하면, 알아서 작업해서 diff(코드 변경분)나 풀 리퀘스트로 돌려줍니다. 노트북을 꺼도 클라우드에서 계속 일합니다.
데스크톱 앱 — 사이드바·스레드·리뷰 패널을 갖춘 본격 애플리케이션. 뒤에서 다룰 Computer Use(컴퓨터 직접 조작)가 펼쳐지는 무대이기도 합니다.

비유: 같은 비서를 전화(CLI)로도, 사무실 옆자리(IDE)로도, 출장 보내서(클라우드) 결과만 받기로도, 집에 불러서(데스크톱) 같이 일하기로도 쓸 수 있다고 생각하면 됩니다. 비서는 한 명, 부르는 창구가 네 개입니다.

5. 아키텍처 (2) — 에이전틱 루프와 harness

표면을 알았으니, 이제 그 안에서 실제로 무슨 일이 벌어지는가를 봅시다. 핵심은 에이전틱 루프(agentic loop)입니다.

크게 보기

ReAct에서 시작된 생각

2021년 Codex가 "한 번에 답을 뱉는" 모델이었다는 걸 기억하시죠? 에이전트는 다릅니다. 생각하고 → 행동하고 → 결과를 보고 → 다시 생각합니다. 이 아이디어의 뿌리는 2022~2023년의 연구들입니다.

에이전트 사고법의 계보개념

ReAct"생각(Reason)"과 "행동(Act)"을 번갈아 — 추론하면서 도구를 쓴다는 패러다임

Reflexion실패를 스스로 되돌아보고(self-reflection) 다음 시도를 개선

Codex이 아이디어를 실제 코드베이스 위에서, 샌드박스 안에서 반복 실행

앞서 봤던 pass@k 기억나시나요? "한 번엔 못 맞혀도 여러 번 시도하면 맞힌다"는 그 성질을, 에이전트는 테스트라는 자동 채점기와 결합해 활용합니다. 짜보고 → 돌려보고 → 틀리면 → 고쳐서 다시. 사람이 코딩하는 방식 그대로죠.

harness — 모델과 컴퓨터 사이의 중개자

여기서 harness(하니스)라는 용어가 등장합니다. 생소하죠? 어렵지 않습니다.

harness = 똑똑하지만 "손발이 없는" 모델과, 실제 컴퓨터(파일·터미널·네트워크) 사이를 중개하는 프로그램.

모델은 "이 파일을 읽어줘", "이 테스트를 돌려줘" 같은 명령을 글로 뱉을 뿐입니다. 그 명령을 실제로 실행하고, 결과를 다시 모델에게 글로 전달해주는 일꾼이 harness입니다. Codex의 경우, CLI 자체(Rust로 만든 프로그램)가 harness 역할을 합니다. harness가 하는 일을 정리하면:

harness가 중개하는 한 사이클

① 모델 "git diff를 실행해줘" 행동을 텍스트로 지시

② harness 샌드박스 안에서 실제 실행 권한·안전 정책을 강제

③ 컴퓨터 명령 출력 반환 파일·터미널·테스트 결과

④ 모델 결과를 "관찰"하고 다음 결정 다시 ①로 반복

harness가 모델에게 쥐여주는 도구는 파일 읽기/편집, 셸 명령 실행, 웹 검색, 이미지 입출력, 그리고 MCP 도구와 서브에이전트(일을 병렬로 쪼개는 보조 에이전트)까지 다양합니다.

한 번의 PR 리뷰를 직접 따라가 보기

말로만 들으면 추상적이죠. 아래 시뮬레이터로 "Codex가 풀 리퀘스트 하나를 검토하는 과정"을 단계별로 따라가 보세요. 계획(Plan) → 실행(Act) → 관찰(Observe) → 수정(Revise)이 어떻게 맞물리는지 보입니다.

보셨나요? 에이전트는 코드를 무작정 고치지 않았습니다. 변경된 파일을 읽고 → 직접 테스트를 돌려보고 → 커버리지 공백을 발견하고 → 사람이 판단하도록 근거와 함께 코멘트를 남겼습니다. 이게 "한 방에 답을 뱉는 모델"과 "스스로 일하는 에이전트"의 결정적 차이입니다.

6. 아키텍처 (3) — 샌드박스, 안전 펜스가 있는 놀이터

여기서 누구나 떠올리는 불안이 있습니다. "AI한테 내 터미널을 맡긴다고? 실수로 파일을 다 지우거나, 이상한 걸 인터넷에 올리면 어쩌지?" 합리적인 걱정입니다. 그래서 Codex 아키텍처에서 가장 중요한 부분이 바로 샌드박스(sandbox)입니다.

샌드박스 = 아이가 다쳐도 크게 다치지 않도록 안전 펜스를 친 모래 놀이터. 에이전트는 그 안에서만 뛰놀 수 있습니다.

Codex는 운영체제가 제공하는 진짜 보안 장치를 씁니다. 마케팅 문구가 아니라 OS 커널 수준의 격리입니다.

운영체제	사용하는 격리 기술	한마디로
macOS	Seatbelt (`sandbox-exec`)	애플 기본 내장, 설치 불필요
Linux / WSL2	Bubblewrap + seccomp	컨테이너처럼 시스템콜을 제한
Windows	네이티브 Windows 샌드박스	PowerShell 환경에서 격리

그리고 두 개의 손잡이로 자유도를 조절합니다. 샌드박스 모드(무엇을 만질 수 있나)와 승인 정책(언제 사람에게 물어보나)입니다.

샌드박스 모드 — 점점 더 많은 자유권한

read-only읽기만 가능. 아무것도 못 바꿈 — 가장 안전

workspace-write작업 폴더 안에서만 편집·실행 (기본값). 네트워크는 기본 차단

danger-full-access제한 없음(--yolo). 신뢰할 때만, 신중히

특히 중요한 두 가지 기본값이 있습니다.

네트워크는 기본적으로 꺼져 있다

기본 모드(workspace-write)에서 에이전트는 인터넷에 접속하지 못합니다. 데이터를 몰래 빼돌리거나 미심쩍은 패키지를 받는 일을 원천 차단. 네트워크가 필요하면 별도 승인이 필요합니다.

승인 정책 — 선을 넘을 때만 물어본다

기본값은 on-request: 평소엔 알아서 일하다가, 작업 폴더 밖을 건드리거나 네트워크가 필요한 등 샌드박스를 벗어나는 순간에만 사람에게 허락을 구합니다. (untrusted/never로 더 빡빡하거나 느슨하게 조절 가능.)

결과 — 안심하고 자율성을 줄 수 있다

.git이나 .codex 같은 민감한 폴더는 어떤 모드에서도 읽기 전용입니다. "안전 펜스" 덕분에 자율성과 안전을 동시에 챙깁니다.

이 "안전 펜스" 설계가 있기에, 우리는 에이전트에게 더 큰 자유를 줄 수 있습니다. 자율성과 통제는 상충하는 게 아니라, 좋은 샌드박스 위에서 함께 갑니다.

7. 아키텍처 (4) — MCP와 Skills, 도구를 더 쥐여주는 두 방법

에이전트가 똑똑해도, 결국 할 수 있는 일은 가진 도구만큼입니다. Codex가 능력을 확장하는 방법은 크게 두 가지입니다. 헷갈리기 쉬우니 표로 먼저 구분합시다.

구분	MCP	Skills
한마디로	에이전트의 USB 포트	사람이 짜준 절차 메모
주는 것	새로운 능력(외부 도구 연결)	기존 능력의 사용법(반복 작업 정형화)
예시	Slack·DB·Figma에 연결	"릴리스 노트 만드는 법" 같은 워크플로
형태	실행되는 서버(프로그램)	`SKILL.md` 문서 파일

MCP — 에이전트의 USB 포트

MCP(Model Context Protocol)는 AI가 외부 도구·데이터와 연결되는 표준 규격입니다. USB가 마우스든 키보드든 외장하드든 같은 포트로 꽂게 해주듯, MCP는 Slack이든 데이터베이스든 Figma든 같은 방식으로 에이전트에 연결합니다. (MCP 자체가 궁금하다면 별도 시리즈에서 깊게 다뤘습니다.)

Codex의 재미있는 점은 MCP의 양쪽 모두가 된다는 것입니다.

Codex가 클라이언트일 때 — 외부 MCP 서버(Slack, DB 등)를 꽂아 도구로 사용

↕

Codex가 서버일 때 — codex mcp-server로 자기 자신을 노출. 다른 에이전트가 Codex를 호출(codex() / codex-reply())

즉, Codex는 다른 도구를 부려 쓰는 동시에, 다른 AI 시스템에게 부려 쓰일 수도 있습니다. 레고 블록처럼 에이전트끼리 조립되는 시대의 설계죠.

Skills와 AGENTS.md — 사람이 남기는 메모

Skills는 자주 하는 작업을 정형화한 폴더입니다. 안에 SKILL.md라는 설명서를 넣어 "이런 요청이 오면 이런 순서로 처리해" 하고 알려줍니다. 신입에게 건네는 업무 매뉴얼과 같습니다.

비슷한 친구로 AGENTS.md가 있습니다. 프로젝트 루트에 두는 파일로, "이 저장소에서는 이런 규칙을 지켜라(코드 스타일, 테스트 방법, 금지 사항 등)"를 적어두면 Codex가 작업 전에 읽고 맥락을 잡습니다. 사람 신입에게 건네는 온보딩 문서라고 보면 됩니다. 흥미롭게도, 지금 당신이 읽는 이 블로그 저장소에도 CLAUDE.md라는 비슷한 성격의 안내 파일이 있습니다 — AI 협업이 표준이 된 시대의 풍경입니다.

8. 아키텍처 (5) — Computer Use, 마우스를 쥔 LLM

자, 이제 2026년에 가장 화제가 된 기능입니다. 앞서 OSWorld 벤치마크에서 본 "AI가 가장 못하던 영역" — 컴퓨터를 직접 손으로 쓰는 일 — 에 정면으로 도전하는 Computer Use입니다.

크게 보기

지금까지의 Codex는 "터미널과 파일"을 다뤘습니다. Computer Use는 한 발 더 나아가, 화면을 눈으로 보고 GUI 앱을 직접 조작합니다. 2026년 4월 등장한 이 기능으로 Codex는 이런 일을 합니다.

Computer Use가 할 수 있는 동작GUI 조작

본다화면을 스크린샷으로 캡처해 무엇이 있는지 파악

조작한다클릭·타이핑·스크롤·드래그·키보드 단축키

확인한다읽기 전용 검사용 스크립트로 상태를 점검

기술적으로 흥미로운 점이 두 가지 있습니다.

첫째, macOS에서는 백그라운드로 작동합니다. 보통 자동화 도구는 마우스를 가로채서 사용자가 아무것도 못 하게 만들죠. 하지만 Codex는 화면 녹화·손쉬운 사용 권한을 받아 포커스를 빼앗지 않고 뒤에서 일합니다. 여러 에이전트가 각자 커서를 들고 병렬로 일할 수도 있습니다. OpenAI는 이를 가능하게 하는 "Cua Driver"라는 macOS 드라이버를 오픈소스로 공개했습니다. 사용은 @Computer나 @앱이름을 불러 시작합니다.

둘째, 이것이 왜 어려운가입니다. OSWorld에서 봤듯, 화면에서 버튼의 위치를 정확히 짚고(이를 "grounding"이라 합니다) 수십 단계를 실수 없이 잇는 건 코드를 짜는 것과는 다른 종류의 난제입니다. 그래서 Computer Use는 강력한 만큼 아직 발전 중인 영역입니다.

사실 확인 메모: Computer Use가 OpenAI의 Operator를 움직이는 'CUA(Computer-Using Agent)' 모델을 그대로 쓰는지는 공식 문서에 명시되어 있지 않습니다. 다만 "Operator로 시작된 컴퓨터 조작 에이전트 계보의 연장선"으로 이해하면 무리가 없습니다. (참고로, 일부에서 언급되는 'Codex Max'라는 모델은 실재하지 않으니 주의하세요.)

9. 2026년의 의미 — "코딩 어시스턴트"에서 "디지털 일꾼"으로

이제 처음의 질문으로 돌아갑시다. 어쩌다 "코드 자동완성기"가 "디지털 일꾼"이 되었을까?

지금까지의 조각을 맞춰보면 그림이 보입니다.

능력

모델이 스스로 여러 번 시도하고 검증하는 에이전틱 루프를 갖췄다 (pass@k → 자동 채점).

손발

harness가 터미널·파일·도구를, 나아가 마우스·키보드(Computer Use)까지 쥐여줬다.

안전

샌드박스와 승인 정책이 자율성을 줘도 괜찮은 환경을 만들었다.

확장

MCP·Skills로 어떤 앱·데이터와도 연결되며 영역을 넓혔다.

이 네 가지가 합쳐지자, Codex는 더 이상 "코드"라는 좁은 영역에 머물 이유가 없어졌습니다. 컴퓨터로 할 수 있는 일이라면 무엇이든 대상이 된 것입니다. 그래서 use cases 페이지의 절반이 코딩이 아닌 거죠. OpenAI가 페이지 맨 위에 내건 세 가지 대표 사례를 보면 방향이 분명합니다.

대표 사례	하는 일	의미
Manage Your Inbox	중요한 메일을 찾아 내 말투로 답장 초안 작성	코드가 아닌 지식 노동
Use Your Computer	Mac에서 직접 클릭·타이핑·앱 조작	화면 너머의 실제 행동
Follow a Goal	장기 목표를 주면 오래 이어서 수행 (Goal Mode)	일회성 작업이 아닌 지속적 책임

그렇다면 사람의 자리는 어디일까요? 답은 앞서 본 벤치마크에 있습니다. SWE-Lancer에서 AI는 돈 받는 일의 절반도 끝내지 못했고, OSWorld에서는 사람과의 격차가 여전합니다. 실행은 점점 에이전트의 몫이 되지만, 무엇을 할지 정하고(목표 설정) 결과가 옳은지 판단하는 일(검증)은 여전히 사람의 몫입니다. 2026년의 진짜 변화는 "사람이 필요 없어지는 것"이 아니라, 사람이 일하는 층위가 한 단계 올라가는 것입니다. 타이핑하는 사람에서, 방향을 정하고 검수하는 사람으로요.

10. 다음 편 예고

오늘은 토대를 깔았습니다. 두 개의 Codex(모델 vs 에이전트), 시험지를 읽는 법(벤치마크), 그리고 네 개의 표면 · 에이전틱 루프 · 샌드박스 · MCP/Skills · Computer Use라는 아키텍처의 다섯 기둥까지. 이제 이 토대 위에서, 역할별로 Codex가 실제로 어떻게 쓰이는지를 사례 중심으로 파고들 차례입니다.

크게 보기

다음 편(2화) — 「엔지니어를 위한 Codex」에서는 가장 본진인 개발 현장을 다룹니다.

수십만 줄짜리 낯선 코드베이스를 이해하기 (요청 흐름 추적, 모듈 지도 그리기)
GitHub PR 리뷰를 사람보다 먼저 돌려 회귀 버그 잡기
행동을 바꾸지 않으면서 리팩토링하고 죽은 코드 걷어내기
레거시 스택을 단계적으로 마이그레이션하기
오래된 API 통합을 최신 모델로 업그레이드하기
에이전트 친화적인 CLI를 직접 만들기

시리즈 인덱스

(현재 글) Codex의 탄생 — 역사 · 벤치마크 · 아키텍처

엔지니어를 위한 Codex

디자이너 · 프론트엔드 워크플로우

iOS · macOS 네이티브 개발

Knowledge Work — 파이낸스 · 오퍼레이션 · 세일즈

Computer Use & 자동화

이 글은 코어닷투데이의 "Codex Use Cases 특집" 시리즈 1편입니다. 사실관계는 2026년 5월 기준이며, 모델 버전·기능은 빠르게 바뀔 수 있습니다.

기술2026.05.30

Codex의 탄생 — HumanEval에서 Computer Use까지 (Codex Use Cases 특집 1)

1. 두 개의 "Codex" — 같은 이름, 다른 존재

2. 짧은 역사 — 죽었다 살아난 이름

2021년 7월 — HumanEval과 함께 태어나다

2021~2022년 — Copilot, IDE 안으로 들어오다

2023년 3월 — 이름이 사라지다

2025년 — 완전히 다른 모습으로 부활

3. 벤치마크 쉽게 읽기 — "어떤 시험을 봤나"

"단답형 퀴즈"는 이미 졸업했다 — HumanEval

진짜 시험 — SWE-bench Verified

돈이 걸린 시험 — SWE-Lancer

컴퓨터를 직접 만지는 시험 — OSWorld

4. 아키텍처 (1) — 하나의 에이전트, 네 개의 표면

5. 아키텍처 (2) — 에이전틱 루프와 harness

ReAct에서 시작된 생각

harness — 모델과 컴퓨터 사이의 중개자

한 번의 PR 리뷰를 직접 따라가 보기

6. 아키텍처 (3) — 샌드박스, 안전 펜스가 있는 놀이터

7. 아키텍처 (4) — MCP와 Skills, 도구를 더 쥐여주는 두 방법

MCP — 에이전트의 USB 포트

Skills와 AGENTS.md — 사람이 남기는 메모

8. 아키텍처 (5) — Computer Use, 마우스를 쥔 LLM

9. 2026년의 의미 — "코딩 어시스턴트"에서 "디지털 일꾼"으로

10. 다음 편 예고

관련 포스트

Computer Use와 자동화 — 코드 자동완성에서 디지털 동료로 (Codex Use Cases 특집 6·완결)

루프 엔지니어링 — 더 이상 에이전트에게 프롬프트하지 마라

iOS·macOS 네이티브 개발을 위한 Codex — 시뮬레이터에서 직접 만져보는 AI (Codex Use Cases 특집 4)

Knowledge Work를 위한 Codex — 코드를 못 짜도 되는 AI (Codex Use Cases 특집 5)