블로그로 돌아가기

#테스트 타임 스케일링
2개의 포스트

인사이트PRM불확실성
2026.02.06AI가 '모르는 것을 아는' 법을 배우다 — Process Reward Model의 불확실성 캘리브레이션
수학 문제를 풀 때 AI는 '이 풀이가 맞을 확률'을 심각하게 과대평가한다. MIT 연구팀은 분위수 회귀로 이 과신을 교정하고, 문제 난이도에 따라 연산량을 자동 조절하는 프레임워크를 제안했다. NeurIPS 2025 논문을 쉽게 풀어본다.
코어닷투데이33분

기술테스트 타임 스케일링추론
2026.01.22s1 논문 해부: AI에게 '잠깐만' 하고 다시 생각하게 했더니 벌어진 일
1,000개의 문제로 26분 학습한 모델이 OpenAI o1-preview를 27% 앞질렀다. 비결은 단순했다 — AI가 답을 내려 할 때 'Wait'이라고 속삭인 것. 스탠퍼드에서 나온 s1 논문이 밝힌 '테스트 타임 스케일링'의 원리를 해부한다.
코어닷투데이40분