#강화학습

9개의 포스트

2026.07.19

인간은 루프 안에서 지쳤다 — 'Human-in-the-Loop'의 70년史와, AI가 코딩의 보상을 훔쳐간 2026년

Pydantic의 엔지니어가 쓴 한 편의 고백 「The Human-in-the-Loop is Tired」가 개발자 세계를 뒤흔들었다. '코드가 알아서 써지는' 시대에 왜 우리는 더 생산적이면서 동시에 더 불행해졌을까? 이 글은 그 답을 찾기 위해 1948년 사이버네틱스의 '키잡이'에서 출발해, 군사 자율무기의 in/on/out-of-the-loop 논쟁, 강화학습의 보상함수, 스키너 상자, 그리고 2026년 버클리·하버드의 노동강도 연구까지 훑는다. '망가진 것은 당신이 아니라 피드백 루프'라는 명제를, 인터랙티브 시뮬레이터 2종과 함께 해부한다.

코어닷투데이41분

Agent Lightning 완전 가이드 — AI 에이전트를 강화학습으로 훈련시키는 시대가 왔다

기술Agent Lightning강화학습

2026.03.31

Agent Lightning 완전 가이드 — AI 에이전트를 강화학습으로 훈련시키는 시대가 왔다

Microsoft가 공개한 Agent Lightning은 어떤 AI 에이전트 프레임워크든 강화학습으로 훈련시킬 수 있는 오픈소스 프레임워크다. 왜 에이전트 훈련이 필요한지, 어떤 원리로 작동하는지, 아키텍처의 모든 것을 풍부한 사례와 함께 해부한다.

코어닷투데이52분

OpenClaw-RL 완전 해부: AI 에이전트가 '대화하면서 스스로 똑똑해지는' 시대가 열리다

기술강화학습AI 에이전트

2026.03.24

OpenClaw-RL 완전 해부: AI 에이전트가 '대화하면서 스스로 똑똑해지는' 시대가 열리다

매일 쓰는 AI 에이전트가 사용자의 반응, 터미널 출력, GUI 변화까지 '다음 상태 신호'로 읽어 스스로 진화한다면? OpenClaw-RL 논문이 제시하는 '대화만으로 학습하는 에이전트'의 원리를 역사적 맥락부터 핵심 기술까지 쉽고 깊게 풀어본다.

코어닷투데이41분

Vision-R1 특집: AI에게 '눈으로 보고 생각하는 법'을 가르치다 — 과잉사고의 함정부터 점진적 훈련까지

기술Vision-R1멀티모달 추론

2026.02.12

Vision-R1 특집: AI에게 '눈으로 보고 생각하는 법'을 가르치다 — 과잉사고의 함정부터 점진적 훈련까지

DeepSeek-R1이 텍스트에서 '생각하는 법'을 배웠다면, Vision-R1은 이미지를 보면서 생각하는 법을 배웠다. 하지만 그 과정에서 AI가 '쓸데없이 오래 생각하는' 과잉사고 문제에 빠졌다. ICLR 2026에서 발표된 이 논문이 제시한 점진적 사고 억제 훈련의 원리를, 일러스트와 인터랙티브 요소로 쉽고 깊게 풀어본다.

코어닷투데이41분

DAPO 완전 해부: DeepSeek-R1의 비밀을 풀어낸 오픈소스 강화학습의 모든 것

기술DAPO강화학습

2026.02.09

DAPO 완전 해부: DeepSeek-R1의 비밀을 풀어낸 오픈소스 강화학습의 모든 것

DeepSeek-R1이 강화학습만으로 AI에게 '생각하는 법'을 가르쳤다고 했지만, 핵심 레시피는 비밀이었다. DAPO는 그 비밀을 4가지 기법으로 풀어내고, 절반의 훈련 스텝으로 더 높은 성능을 달성한 뒤 모든 코드를 공개했다. 엔트로피 붕괴부터 동적 샘플링까지, 대규모 RL의 진짜 난관과 해법을 논문 기반으로 풀어본다.

코어닷투데이39분

모든 길은 우도(Likelihood)로 통한다 — RLHF는 왜 DPO를 이기는가

인사이트RLHFDPO

2025.12.19

모든 길은 우도(Likelihood)로 통한다 — RLHF는 왜 DPO를 이기는가

정보이론적으로 RLHF는 DPO보다 나을 수 없다. 그런데 실제로는 항상 이긴다. CMU와 코넬의 연구팀이 밝혀낸 그 이유는, 컴퓨터 과학의 가장 유명한 난제 P≠NP와 연결되어 있었다.

코어닷투데이31분

DeepSeek-R1 특집: AI가 스스로 '아하!'를 외친 날 — 강화학습으로 추론 능력을 깨우다

인사이트DeepSeek-R1GRPO

2025.12.17

DeepSeek-R1 특집: AI가 스스로 '아하!'를 외친 날 — 강화학습으로 추론 능력을 깨우다

SFT 없이 순수 강화학습만으로 수학 올림피아드 문제를 푸는 AI가 탄생했다. DeepSeek-R1은 OpenAI o1에 필적하는 추론 능력을 5백만 달러로 달성하며, NVIDIA 주가를 17% 폭락시키고, AI 산업의 상식을 뒤흔들었다. 그 안에서 일어난 일을 처음부터 풀어본다.

코어닷투데이57분

DPO 특집: 강화학습 없이 AI를 정렬하는 법 — 'AI는 사실 보상 모델이었다'

인사이트DPORLHF

2025.11.04

DPO 특집: 강화학습 없이 AI를 정렬하는 법 — 'AI는 사실 보상 모델이었다'

ChatGPT를 만든 RLHF는 복잡하고, 불안정하고, 비싸다. 스탠퍼드의 DPO 논문은 이 모든 것을 하나의 수식으로 해결했다. 강화학습 없이 AI를 인간의 선호에 맞추는 혁명적 방법론의 탄생부터 2026년 현재까지를 추적한다.

코어닷투데이44분

기술RLHF강화학습

2025.10.14

RLHF의 기원: '보상 함수를 쓸 수 없다면, 인간에게 물어보라'

ChatGPT를 만든 기술의 원조 논문. 보상 함수를 쓸 수 없는 과제를 인간의 선호 판단 1% 미만으로 해결한 2017년 논문을 해부하며, 강화학습의 기초부터 현대 AI까지의 여정을 쉽게 풀어낸다.

코어닷투데이29분