블로그로 돌아가기

#o1
2개의 포스트

기술테스트 타임 스케일링추론
2026.01.22s1 논문 해부: AI에게 '잠깐만' 하고 다시 생각하게 했더니 벌어진 일
1,000개의 문제로 26분 학습한 모델이 OpenAI o1-preview를 27% 앞질렀다. 비결은 단순했다 — AI가 답을 내려 할 때 'Wait'이라고 속삭인 것. 스탠퍼드에서 나온 s1 논문이 밝힌 '테스트 타임 스케일링'의 원리를 해부한다.
코어닷투데이40분

인사이트DeepSeek-R1GRPO
2025.12.17DeepSeek-R1 특집: AI가 스스로 '아하!'를 외친 날 — 강화학습으로 추론 능력을 깨우다
SFT 없이 순수 강화학습만으로 수학 올림피아드 문제를 푸는 AI가 탄생했다. DeepSeek-R1은 OpenAI o1에 필적하는 추론 능력을 5백만 달러로 달성하며, NVIDIA 주가를 17% 폭락시키고, AI 산업의 상식을 뒤흔들었다. 그 안에서 일어난 일을 처음부터 풀어본다.
코어닷투데이57분