
s1 논문 해부: AI에게 '잠깐만' 하고 다시 생각하게 했더니 벌어진 일
1,000개의 문제로 26분 학습한 모델이 OpenAI o1-preview를 27% 앞질렀다. 비결은 단순했다 — AI가 답을 내려 할 때 'Wait'이라고 속삭인 것. 스탠퍼드에서 나온 s1 논문이 밝힌 '테스트 타임 스케일링'의 원리를 해부한다.

1,000개의 문제로 26분 학습한 모델이 OpenAI o1-preview를 27% 앞질렀다. 비결은 단순했다 — AI가 답을 내려 할 때 'Wait'이라고 속삭인 것. 스탠퍼드에서 나온 s1 논문이 밝힌 '테스트 타임 스케일링'의 원리를 해부한다.
시험을 볼 때, 두 가지 전략이 있다.
전략 A: 오랜 기간 열심히 공부한 뒤 시험장에서 빠르게 답을 쓴다. 전략 B: 적당히 공부하되, 시험장에서 더 오래 생각한다. 답을 쓰려다가 멈추고, "잠깐, 이거 맞나?" 하고 다시 검토한다.
2024년까지 AI의 발전은 거의 전부 전략 A였다. 더 큰 모델, 더 많은 데이터, 더 긴 학습. GPT-4를 만들기 위해 수개월간 수만 대의 GPU를 태웠다. 이것을 학습 시간 스케일링(train-time scaling) 이라 부른다.
그런데 2024년 9월, OpenAI가 o1을 발표하면서 전략 B가 수면 위로 올라왔다. 모델이 답을 내기 전에 더 오래 "생각"하게 하면 성능이 올라간다는 것이다. 이것이 테스트 타임 스케일링(test-time scaling) — 추론 시점에서 더 많은 연산을 투입하는 것이다.
문제는, OpenAI가 o1을 어떻게 만들었는지 거의 공개하지 않았다는 점이다. 학습 데이터, 추론 과정, 보상 모델 — 모두 블랙박스다.
2025년 1월, 스탠퍼드 대학교의 연구자들이 이 블랙박스에 정면으로 도전했다.
이름부터 도발적이다. s1 — "simple 1." OpenAI의 o1에 대한 가장 단순한 대안이라는 뜻이다.
2020년 OpenAI의 스케일링 법칙(Scaling Laws) 이후, AI 업계의 공식은 명확했다:
모델을 더 크게, 데이터를 더 많이, 학습을 더 오래 하면 성능이 올라간다.
이 공식은 놀라울 정도로 잘 작동했다. GPT-2(1.5B) → GPT-3(175B) → GPT-4(추정 1.7T)로 모델이 커질수록 성능은 예측 가능하게 올라갔다.
하지만 문제가 생겼다:
학습 시간 스케일링은 사전 투자다. 수억 달러를 태워서 모델을 만들어 놓고, 실제 사용(추론) 시에는 최대한 빠르고 저렴하게 돌리는 구조다. 문제는 이 사전 투자가 천문학적으로 비싸지고 있다는 것이다.
반대 접근이 있다. 모델 자체는 적당한 크기로 만들되, 사용할 때 더 많은 연산을 투입하는 것이다.
수학 시험의 비유로 돌아가면: 1년 동안 과외를 받는 대신(학습 시간 스케일링), 시험 시간을 2배로 늘려주는 것(테스트 타임 스케일링)이다.
이것이 가능한 이유는, 대형 언어 모델이 이미 사전학습 과정에서 수조 개의 토큰을 봤기 때문이다. 수학 교과서, 과학 논문, 프로그래밍 코드 — 이미 "공부"는 많이 했다. 문제는 그 지식을 끌어내는 방법이다.
OpenAI o1이 보여준 것이 바로 이것이다. o1은 답을 내기 전에 긴 "사고 과정(chain of thought)"을 생성한다. 수천 토큰에 걸쳐 단계별로 추론하고, 실수를 발견하면 되돌아가고, 다른 접근법을 시도한다.
| 학습 시간 스케일링 | 테스트 타임 스케일링 | |
|---|---|---|
| 비용 발생 시점 | 학습 시 (사전 투자) | 추론 시 (사용량 비례) |
| 유연성 | 학습 후 변경 불가 | 문제 난이도에 맞게 조절 가능 |
| 비용 구조 | 고정 비용 (수억 달러) | 변동 비용 (토큰당 과금) |
| 쉬운 문제 | 오버스펙 (비싼 모델이 쉬운 질문에도 사용) | 빠르게 답변 (적은 연산) |
| 어려운 문제 | 한계 고정 | 더 오래 생각시켜 한계 돌파 |
비유: 학습 시간 스케일링은 F1 레이싱카를 사는 것이다. 한 번 사면 빠르지만, 출퇴근에도 레이싱카를 타야 한다. 테스트 타임 스케일링은 택시를 부르는 것이다. 가까운 거리는 싸게, 먼 거리는 비싸게 — 필요에 따라 비용이 조절된다.
s1 논문의 기여는 크게 세 가지다.
o1을 만들기 위해 OpenAI가 얼마나 많은 데이터를 사용했는지는 알 수 없다. DeepSeek의 r1은 80만 개 이상의 예제를 사용했다. s1은 딱 1,000개만 사용했다.
핵심은 어떤 1,000개를 고르느냐다. s1K 데이터셋은 세 가지 기준으로 엄선되었다.
이 1,000개 문제의 추론 과정(reasoning trace) 은 Gemini Thinking Experimental API로 생성했다. 단순한 정답이 아니라, 문제를 풀어가는 사고의 전 과정이 포함된다.
비유: 수학 선생님이 학생에게 "답만 알려주는 것"과 "풀이 과정 전체를 보여주는 것"의 차이다. s1K는 후자다 — 모델이 어떻게 생각해야 하는지를 배운다.
이것은 LIMA 가설(Superficial Alignment Hypothesis) 과 맥을 같이한다. 2023년 메타의 LIMA 논문이 보여준 것: 대형 언어 모델은 사전학습에서 이미 대부분의 지식을 습득하며, 파인튜닝은 이 지식을 올바른 형식으로 끌어내는 역할만 한다.
즉, Qwen2.5-32B는 이미 수조 개의 토큰에서 수학, 과학, 코딩을 "공부"했다. s1K의 1,000개 예제는 새로운 지식을 가르치는 것이 아니라, "이런 식으로 단계별로 길게 생각하면 돼" 라는 사고 형식을 가르치는 것이다.
s1 논문의 가장 인상적인 혁신은 놀라울 정도로 단순하다.
모델이 추론 과정에서 너무 빨리 답을 내려고 하면, "사고 종료" 토큰을 억제하고 대신 "Wait" 이라는 문자열을 추론에 덧붙인다.
논문의 Figure 3에서 이것이 실제로 작동하는 장면이 나온다:
"Wait" 한 마디가 모델의 자기 교정을 유도한다. 모델은 이미 실수를 감지할 능력이 있었지만, 너무 빨리 답을 내려 했기 때문에 그 능력을 발휘하지 못했다.
논문은 여러 문자열을 실험했다:
"Wait"이 유일하게 AIME24에서 성능을 올렸다. "Alternatively"나 "Hmm"은 효과가 없었다. 왜일까?
논문은 명시적으로 설명하지 않지만, 추론하면 이렇다: 사전학습 데이터에서 "Wait"은 자기 교정의 신호로 학습되었을 가능성이 높다. 수학 풀이나 코드 리뷰에서 "Wait, that's not right..." 같은 패턴이 빈번하게 등장하기 때문이다. 반면 "Hmm"은 주저함, "Alternatively"는 병렬적 탐색을 유도 — 자기 교정보다는 새로운 시도로 이어진다.
s1-32B는 Qwen2.5-32B-Instruct를 기반으로, s1K 1,000개 예제에 대해 PyTorch FSDP로 16대의 H100에서 26분 파인튜닝한 것이다.
비교하면:
AIME(American Invitational Mathematics Examination) 는 미국의 고등학교 수학 경시대회로, 상위 2.5~5%의 학생들만 초대받는 높은 난이도의 시험이다. AIME24는 2024년 대회의 30문제.
s1-32B가 o1-preview를 12.1%p 앞선다. 17K 예제를 사용한 Sky-T1보다도 13.4%p 높다. 불과 1,000개의 예제와 26분의 학습으로.
Budget Forcing을 적용하면 성능이 더 올라간다:
| 벤치마크 | s1-32B | o1-preview | 비고 |
|---|---|---|---|
| MATH500 | 93.0% | 85.5% | +7.5%p. 경쟁 수학 500문제 |
| GPQA Diamond | 59.6% | 73.3% | -13.7%p. PhD급 과학 문제 (전문가 정답률 69.7%) |
| AIME24 | 56.7% | 44.6% | +12.1%p. 경시대회 수학 |
MATH500에서도 o1-preview를 크게 앞서지만, GPQA Diamond(박사 수준 과학)에서는 뒤진다. 이것은 s1K 데이터셋이 수학에 집중되어 있기 때문이다 — 과학 문제의 비중이 상대적으로 낮다.
논문은 Budget Forcing 외의 테스트 타임 스케일링 방법들도 비교했다.
| 방법 | 제어 가능성 | 스케일링 | 최고 성능 |
|---|---|---|---|
| Budget Forcing | 100% | +15 | 56.7% |
| 토큰 수 조건 제어 | 40% | -24 | 40.0% |
| 단계 수 조건 제어 | 60% | +3 | 36.7% |
| 클래스 조건 제어 | 50% | +25 | 36.7% |
| 거부 샘플링 | 100% | -35 | 40.0% |
Budget Forcing만이 100% 제어 가능하면서 양의 스케일링(더 많은 연산 = 더 좋은 결과)을 보인다.
특히 흥미로운 건 거부 샘플링(rejection sampling)의 역전 현상이다. 여러 답을 생성하고 길이 조건에 맞는 것을 고르면, 짧은 답이 오히려 더 정확하다. 논문의 해석: 짧게 끝난 추론은 처음부터 올바른 접근을 했다는 뜻이고, 길게 늘어진 추론은 초반에 실수하고 헤매다가 우연히 길어진 경우가 많다.
s1의 성공을 이해하는 핵심은 이것이다: 모델은 이미 추론할 줄 안다. 단지 추론하는 형식을 몰랐을 뿐이다.
Qwen2.5-32B는 사전학습 과정에서 수학 교과서, 증명, 풀이 과정을 대량으로 학습했다. 하지만 instruction-tuning 과정에서 "짧고 유용한 답변"을 내도록 최적화되었다. s1K의 1,000개 예제는 이 최적화를 다시 덮어씌운다 — "길게 생각해도 되고, 중간에 실수를 인정하고 다시 시작해도 돼"라고 가르치는 것이다.
비유: 당신은 이미 수학을 잘 하는 사람이다. 하지만 그동안 "답만 빨리 말해"라는 규칙에 익숙해져 있었다. 누군가 "천천히 풀어도 돼, 중간 과정 보여줘도 돼"라고 허락해 주면 — 갑자기 더 어려운 문제도 풀 수 있게 된다.
s1-32B는 두 가지 모드로 작동한다:
<|im_start|>think
... (사고 과정 — 수천 토큰의 추론, 검증, 자기 수정) ...
<|im_start|>answer
... (최종 답변) ...
think 구간에서 모델은 자유롭게 추론하고, 실수하고, 되돌아가고, 다른 접근법을 시도한다. answer 구간에서는 정제된 최종 답을 낸다. Budget Forcing은 이 think 구간의 길이를 제어하는 것이다.
논문에 포함된 실제 풀이 예시(Figure 5)를 보자. 게임 이론 문제에서 토큰 제거의 승패 위치를 분석하는 문제다:
논문의 가장 실용적인 기여 중 하나는 데이터 선별 전략의 체계적 비교다.
핵심 발견:
교훈: 데이터의 양보다 질과 구성이 중요하다. 59,000개의 무작위 데이터보다 잘 고른 1,000개가 거의 같은 성능을 낸다.
s1K의 다양성 확보 방법이 흥미롭다:
결과: 기하학 109문제, 정수론 98문제, 조합론 75문제 등 50개 도메인에 걸쳐 총 470만 토큰의 데이터셋.
테스트 타임 스케일링에는 두 가지 방향이 있다.
하나의 추론 과정을 더 길게 만드는 것. s1의 핵심 방법.
여러 개의 독립적인 답을 생성하고, 가장 좋은 것을 고르는 것.
논문은 두 접근을 결합하면 성능이 더 오른다는 것도 보여준다. Budget Forcing으로 각 추론을 길게 만들고, 여러 개를 생성해서 다수결 투표를 하면 — 어느 하나만 사용하는 것보다 우수하다.
2026년 현재, AI 추론 비용이 산업의 핵심 이슈다. OpenAI o1은 GPT-4 대비 3~5배 비싼 추론 비용이 든다. 더 오래 "생각"하면 더 많은 토큰을 생성하니까.
s1이 보여주는 것은, 이 추론 비용을 선택적으로 투입할 수 있다는 것이다:
모든 질문에 o1 수준의 추론을 적용할 필요가 없다. 문제의 난이도에 따라 추론 예산을 동적으로 조절하면 비용 효율이 극적으로 올라간다.
s1 논문 이후, 오픈소스 추론 모델 생태계가 빠르게 성장했다:
s1은 이 흐름에서 "최소한의 자원으로 추론 능력을 부여할 수 있다" 는 것을 증명한 논문이다. 대학 연구실이나 스타트업도 H100 16대와 26분만 있으면 o1-preview급 추론 모델을 만들 수 있다.
s1 이전에는 모델 성능을 올리려면 학습을 다시 해야 했다. 더 많은 데이터, 더 나은 보상 모델, 더 정교한 RLHF.
s1이 열어젖힌 것은 추론 전략이라는 새로운 차원이다:
이것은 학습을 한 번 하고, 추론 전략을 계속 개선할 수 있다는 뜻이다. 모델을 다시 학습하지 않고도 성능을 올리는 길이 열린 것이다.
스케일 한계. Budget Forcing의 성능 향상은 약 6회 반복 후 정체된다. 모델이 반복적 루프에 빠지기 때문이다. 이론적으로 무한히 "더 오래 생각하게" 할 수는 없다.
도메인 제약. s1K가 수학에 집중되어 있어, GPQA(과학)에서는 o1-preview에 뒤진다. 데이터 구성을 바꾸면 달라질 수 있지만, 이는 검증되지 않았다.
평가의 비결정성. 논문의 부록에서 솔직히 인정하는 문제: 동일한 시드에서도 배치 크기, 텐서 병렬 설정에 따라 결과가 달라진다. 긴 추론 체인에서 작은 수치 변화가 눈덩이처럼 커진다.
RL 없는 한계. s1은 순수 지도 학습(SFT)만 사용했다. o1과 r1은 강화학습(RL)을 통해 모델이 스스로 추론 전략을 발견하게 한다. SFT만으로는 이 수준의 자기 발전이 어렵다.
s1 논문의 가장 놀라운 점은 아이디어의 단순함이다.
이것이 전부다. 복잡한 강화학습도, 수백만 달러의 학습 비용도, 수십만 개의 데이터도 필요 없다.
논문의 제목이 "s1: Simple test-time scaling" 인 이유다. 그리고 이 단순함이야말로 이 논문의 가장 큰 기여다.
과학의 역사에서, 가장 영향력 있는 발견들은 종종 놀라울 정도로 단순했다. 뉴턴의 운동 법칙, 다윈의 자연 선택, 섀넌의 정보 이론. 복잡한 현상의 핵심을 가장 간결한 원리로 포착하는 것.
s1이 말하는 원리는 이것이다:
AI는 이미 알고 있다. 단지 생각할 시간이 필요할 뿐이다.
"Wait" 한 마디. 그것이면 충분했다.
이 글에서 다룬 논문: Niklas Muennighoff et al., "s1: Simple test-time scaling," arXiv:2501.19393 (2025). 코드, 모델, 데이터: github.com/simplescaling/s1