1개의 포스트
1,000개의 문제로 26분 학습한 모델이 OpenAI o1-preview를 27% 앞질렀다. 비결은 단순했다 — AI가 답을 내려 할 때 'Wait'이라고 속삭인 것. 스탠퍼드에서 나온 s1 논문이 밝힌 '테스트 타임 스케일링'의 원리를 해부한다.