#o1

2개의 포스트

2026.01.22

s1 논문 해부: AI에게 '잠깐만' 하고 다시 생각하게 했더니 벌어진 일

1,000개의 문제로 26분 학습한 모델이 OpenAI o1-preview를 27% 앞질렀다. 비결은 단순했다 — AI가 답을 내려 할 때 'Wait'이라고 속삭인 것. 스탠퍼드에서 나온 s1 논문이 밝힌 '테스트 타임 스케일링'의 원리를 해부한다.

코어닷투데이40분

DeepSeek-R1 특집: AI가 스스로 '아하!'를 외친 날 — 강화학습으로 추론 능력을 깨우다

인사이트DeepSeek-R1GRPO

2025.12.17

DeepSeek-R1 특집: AI가 스스로 '아하!'를 외친 날 — 강화학습으로 추론 능력을 깨우다

SFT 없이 순수 강화학습만으로 수학 올림피아드 문제를 푸는 AI가 탄생했다. DeepSeek-R1은 OpenAI o1에 필적하는 추론 능력을 5백만 달러로 달성하며, NVIDIA 주가를 17% 폭락시키고, AI 산업의 상식을 뒤흔들었다. 그 안에서 일어난 일을 처음부터 풀어본다.

코어닷투데이57분