coredot.today
s1 논문 해부: AI에게 '잠깐만' 하고 다시 생각하게 했더니 벌어진 일
블로그로 돌아가기
테스트 타임 스케일링추론o1s1Budget Forcing수학 추론LLM

s1 논문 해부: AI에게 '잠깐만' 하고 다시 생각하게 했더니 벌어진 일

1,000개의 문제로 26분 학습한 모델이 OpenAI o1-preview를 27% 앞질렀다. 비결은 단순했다 — AI가 답을 내려 할 때 'Wait'이라고 속삭인 것. 스탠퍼드에서 나온 s1 논문이 밝힌 '테스트 타임 스케일링'의 원리를 해부한다.

코어닷투데이2026-03-2540

들어가며: "잠깐만, 다시 생각해 봐"

시험을 볼 때, 두 가지 전략이 있다.

전략 A: 오랜 기간 열심히 공부한 뒤 시험장에서 빠르게 답을 쓴다. 전략 B: 적당히 공부하되, 시험장에서 더 오래 생각한다. 답을 쓰려다가 멈추고, "잠깐, 이거 맞나?" 하고 다시 검토한다.

2024년까지 AI의 발전은 거의 전부 전략 A였다. 더 큰 모델, 더 많은 데이터, 더 긴 학습. GPT-4를 만들기 위해 수개월간 수만 대의 GPU를 태웠다. 이것을 학습 시간 스케일링(train-time scaling) 이라 부른다.

그런데 2024년 9월, OpenAI가 o1을 발표하면서 전략 B가 수면 위로 올라왔다. 모델이 답을 내기 전에 더 오래 "생각"하게 하면 성능이 올라간다는 것이다. 이것이 테스트 타임 스케일링(test-time scaling) — 추론 시점에서 더 많은 연산을 투입하는 것이다.

문제는, OpenAI가 o1을 어떻게 만들었는지 거의 공개하지 않았다는 점이다. 학습 데이터, 추론 과정, 보상 모델 — 모두 블랙박스다.

2025년 1월, 스탠퍼드 대학교의 연구자들이 이 블랙박스에 정면으로 도전했다.

논문 정보
"s1: Simple test-time scaling"
저자: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto
arXiv: 2501.19393 (2025년 1월 31일)
소속: Stanford University, University of Washington

핵심 결과: 1,000개의 문제로 26분 학습한 32B 모델(s1-32B)이 OpenAI o1-preview를 경쟁 수학에서 최대 27% 앞질렀다. 비결은 "Budget Forcing"이라는 단순한 디코딩 기법.

이름부터 도발적이다. s1 — "simple 1." OpenAI의 o1에 대한 가장 단순한 대안이라는 뜻이다.


1장: 스케일링의 두 축 — 학습 vs 추론

학습 시간 스케일링: "더 크게, 더 오래"

2020년 OpenAI의 스케일링 법칙(Scaling Laws) 이후, AI 업계의 공식은 명확했다:

모델을 더 크게, 데이터를 더 많이, 학습을 더 오래 하면 성능이 올라간다.

이 공식은 놀라울 정도로 잘 작동했다. GPT-2(1.5B) → GPT-3(175B) → GPT-4(추정 1.7T)로 모델이 커질수록 성능은 예측 가능하게 올라갔다.

하지만 문제가 생겼다:

~1억 달러 GPT-4 학습 비용 추정치
수개월 학습 기간 수만 GPU
한 번 학습 기회 실패하면 처음부터

학습 시간 스케일링은 사전 투자다. 수억 달러를 태워서 모델을 만들어 놓고, 실제 사용(추론) 시에는 최대한 빠르고 저렴하게 돌리는 구조다. 문제는 이 사전 투자가 천문학적으로 비싸지고 있다는 것이다.

테스트 타임 스케일링: "더 오래 생각하게"

반대 접근이 있다. 모델 자체는 적당한 크기로 만들되, 사용할 때 더 많은 연산을 투입하는 것이다.

수학 시험의 비유로 돌아가면: 1년 동안 과외를 받는 대신(학습 시간 스케일링), 시험 시간을 2배로 늘려주는 것(테스트 타임 스케일링)이다.

이것이 가능한 이유는, 대형 언어 모델이 이미 사전학습 과정에서 수조 개의 토큰을 봤기 때문이다. 수학 교과서, 과학 논문, 프로그래밍 코드 — 이미 "공부"는 많이 했다. 문제는 그 지식을 끌어내는 방법이다.

OpenAI o1이 보여준 것이 바로 이것이다. o1은 답을 내기 전에 긴 "사고 과정(chain of thought)"을 생성한다. 수천 토큰에 걸쳐 단계별로 추론하고, 실수를 발견하면 되돌아가고, 다른 접근법을 시도한다.

기존 모델
질문 → [짧은 추론] → 답
↓ vs ↓
o1/s1 모델
질문 → [긴 사고 과정: 시도 → 검증 → 실패 → 다른 접근 → 재검증] → 답

왜 테스트 타임 스케일링이 매력적인가?

학습 시간 스케일링테스트 타임 스케일링
비용 발생 시점학습 시 (사전 투자)추론 시 (사용량 비례)
유연성학습 후 변경 불가문제 난이도에 맞게 조절 가능
비용 구조고정 비용 (수억 달러)변동 비용 (토큰당 과금)
쉬운 문제오버스펙 (비싼 모델이 쉬운 질문에도 사용)빠르게 답변 (적은 연산)
어려운 문제한계 고정더 오래 생각시켜 한계 돌파

비유: 학습 시간 스케일링은 F1 레이싱카를 사는 것이다. 한 번 사면 빠르지만, 출퇴근에도 레이싱카를 타야 한다. 테스트 타임 스케일링은 택시를 부르는 것이다. 가까운 거리는 싸게, 먼 거리는 비싸게 — 필요에 따라 비용이 조절된다.


2장: s1의 세 가지 혁신

s1 논문의 기여는 크게 세 가지다.

혁신 1: s1K — 1,000개의 "황금 문제"

o1을 만들기 위해 OpenAI가 얼마나 많은 데이터를 사용했는지는 알 수 없다. DeepSeek의 r1은 80만 개 이상의 예제를 사용했다. s1은 딱 1,000개만 사용했다.

핵심은 어떤 1,000개를 고르느냐다. s1K 데이터셋은 세 가지 기준으로 엄선되었다.

s1K 데이터 큐레이션 — 3단계 필터
1단계: 품질 59,029 → 51,581 포맷 오류, 파싱 불가 제거. 384개의 고품질 샘플 우선 선별
2단계: 난이도 51,581 → 24,496 Qwen 7B와 32B 모두 못 푸는 문제만 남김. 너무 쉬운 건 학습 가치 없음
3단계: 다양성 24,496 → 1,000 50개 수학/과학 도메인에 균등 분배. 긴 추론 과정 선호

이 1,000개 문제의 추론 과정(reasoning trace) 은 Gemini Thinking Experimental API로 생성했다. 단순한 정답이 아니라, 문제를 풀어가는 사고의 전 과정이 포함된다.

비유: 수학 선생님이 학생에게 "답만 알려주는 것"과 "풀이 과정 전체를 보여주는 것"의 차이다. s1K는 후자다 — 모델이 어떻게 생각해야 하는지를 배운다.

왜 1,000개로 충분한가?

이것은 LIMA 가설(Superficial Alignment Hypothesis) 과 맥을 같이한다. 2023년 메타의 LIMA 논문이 보여준 것: 대형 언어 모델은 사전학습에서 이미 대부분의 지식을 습득하며, 파인튜닝은 이 지식을 올바른 형식으로 끌어내는 역할만 한다.

즉, Qwen2.5-32B는 이미 수조 개의 토큰에서 수학, 과학, 코딩을 "공부"했다. s1K의 1,000개 예제는 새로운 지식을 가르치는 것이 아니라, "이런 식으로 단계별로 길게 생각하면 돼" 라는 사고 형식을 가르치는 것이다.

혁신 2: Budget Forcing — "Wait" 한 마디의 마법

s1 논문의 가장 인상적인 혁신은 놀라울 정도로 단순하다.

모델이 추론 과정에서 너무 빨리 답을 내려고 하면, "사고 종료" 토큰을 억제하고 대신 "Wait" 이라는 문자열을 추론에 덧붙인다.

Budget Forcing의 두 가지 메커니즘
1. 최대 예산 강제 (Maximum Enforcement)
토큰 수가 상한을 넘으면 → 사고 종료 구분자 삽입 + "Final Answer:" 삽입 → 즉시 답변 생성

2. 최소 예산 강제 (Minimum Enforcement)
모델이 사고를 끝내려 하면 → 종료 토큰 억제 + "Wait" 문자열 삽입 → 모델이 다시 생각 시작

핵심: "Wait"을 삽입하면 모델이 자신의 이전 답을 다시 검토하고, 종종 실수를 발견하여 수정한다.

논문의 Figure 3에서 이것이 실제로 작동하는 장면이 나온다:

Budget Forcing 작동 예시 실제 추론 과정
추론 문제를 분석하고... 결론은 답이 2다.
모델이 답을 내려 함 → Budget Forcing 개입: "Wait" 삽입
재검토 Wait... 잠깐, 내가 3단계에서 부호를 잘못 처리한 것 같다. 다시 계산하면...
수정 아, 맞다. 정답은 2가 아니라 7이다.

"Wait" 한 마디가 모델의 자기 교정을 유도한다. 모델은 이미 실수를 감지할 능력이 있었지만, 너무 빨리 답을 내려 했기 때문에 그 능력을 발휘하지 못했다.

왜 하필 "Wait"인가?

논문은 여러 문자열을 실험했다:

AIME24 정확도 — 삽입 문자열별 비교
삽입 없음 50.0%
"Alternatively" 50.0%
"Hmm" 50.0%
"Wait" 53.3%

"Wait"이 유일하게 AIME24에서 성능을 올렸다. "Alternatively"나 "Hmm"은 효과가 없었다. 왜일까?

논문은 명시적으로 설명하지 않지만, 추론하면 이렇다: 사전학습 데이터에서 "Wait"은 자기 교정의 신호로 학습되었을 가능성이 높다. 수학 풀이나 코드 리뷰에서 "Wait, that's not right..." 같은 패턴이 빈번하게 등장하기 때문이다. 반면 "Hmm"은 주저함, "Alternatively"는 병렬적 탐색을 유도 — 자기 교정보다는 새로운 시도로 이어진다.

혁신 3: 26분 학습 — 극한의 효율

26분 학습 시간 16× H100 GPU
1,000개 학습 데이터 s1K 데이터셋
7 GPU·시간 총 연산량 vs. r1-distill의 394시간
100% 오픈소스 코드 + 모델 + 데이터

s1-32B는 Qwen2.5-32B-Instruct를 기반으로, s1K 1,000개 예제에 대해 PyTorch FSDP로 16대의 H100에서 26분 파인튜닝한 것이다.

비교하면:

  • DeepSeek r1: 80만 개 이상의 예제, 대규모 RL 학습
  • OpenAI o1: 비공개, 추정 수십만~수백만 예제 + 대규모 RLHF
  • s1-32B: 1,000개 예제, 26분 학습

3장: 실험 결과 — 작은 모델의 반란

경쟁 수학 벤치마크: AIME24

AIME(American Invitational Mathematics Examination) 는 미국의 고등학교 수학 경시대회로, 상위 2.5~5%의 학생들만 초대받는 높은 난이도의 시험이다. AIME24는 2024년 대회의 30문제.

AIME24 정확도 (높을수록 좋음)
Sky-T1 (17K 예제) 43.3%
o1-preview 44.6%
QwQ-32B 50.0%
s1-32B (1K 예제) 56.7%
Gemini 2.0 60.0%
Bespoke-32B (17K) 63.3%
o1-mini 70.0%
o1 74.4%
DeepSeek r1 (800K+) 79.8%

s1-32B가 o1-preview를 12.1%p 앞선다. 17K 예제를 사용한 Sky-T1보다도 13.4%p 높다. 불과 1,000개의 예제와 26분의 학습으로.

Budget Forcing을 적용하면 성능이 더 올라간다:

50.0% Budget Forcing 없이 기본 성능
57.0% Budget Forcing 적용 +7%p 향상

MATH500과 GPQA Diamond

벤치마크s1-32Bo1-preview비고
MATH50093.0%85.5%+7.5%p. 경쟁 수학 500문제
GPQA Diamond59.6%73.3%-13.7%p. PhD급 과학 문제 (전문가 정답률 69.7%)
AIME2456.7%44.6%+12.1%p. 경시대회 수학

MATH500에서도 o1-preview를 크게 앞서지만, GPQA Diamond(박사 수준 과학)에서는 뒤진다. 이것은 s1K 데이터셋이 수학에 집중되어 있기 때문이다 — 과학 문제의 비중이 상대적으로 낮다.

테스트 타임 스케일링 메서드 비교

논문은 Budget Forcing 외의 테스트 타임 스케일링 방법들도 비교했다.

방법제어 가능성스케일링최고 성능
Budget Forcing100%+1556.7%
토큰 수 조건 제어40%-2440.0%
단계 수 조건 제어60%+336.7%
클래스 조건 제어50%+2536.7%
거부 샘플링100%-3540.0%

Budget Forcing만이 100% 제어 가능하면서 양의 스케일링(더 많은 연산 = 더 좋은 결과)을 보인다.

특히 흥미로운 건 거부 샘플링(rejection sampling)의 역전 현상이다. 여러 답을 생성하고 길이 조건에 맞는 것을 고르면, 짧은 답이 오히려 더 정확하다. 논문의 해석: 짧게 끝난 추론은 처음부터 올바른 접근을 했다는 뜻이고, 길게 늘어진 추론은 초반에 실수하고 헤매다가 우연히 길어진 경우가 많다.


4장: 왜 이것이 작동하는가 — 직관적 이해

사전학습된 추론 능력의 "잠금 해제"

s1의 성공을 이해하는 핵심은 이것이다: 모델은 이미 추론할 줄 안다. 단지 추론하는 형식을 몰랐을 뿐이다.

Qwen2.5-32B는 사전학습 과정에서 수학 교과서, 증명, 풀이 과정을 대량으로 학습했다. 하지만 instruction-tuning 과정에서 "짧고 유용한 답변"을 내도록 최적화되었다. s1K의 1,000개 예제는 이 최적화를 다시 덮어씌운다 — "길게 생각해도 되고, 중간에 실수를 인정하고 다시 시작해도 돼"라고 가르치는 것이다.

비유: 당신은 이미 수학을 잘 하는 사람이다. 하지만 그동안 "답만 빨리 말해"라는 규칙에 익숙해져 있었다. 누군가 "천천히 풀어도 돼, 중간 과정 보여줘도 돼"라고 허락해 주면 — 갑자기 더 어려운 문제도 풀 수 있게 된다.

"생각"의 토큰 구분

s1-32B는 두 가지 모드로 작동한다:

<|im_start|>think
... (사고 과정 — 수천 토큰의 추론, 검증, 자기 수정) ...
<|im_start|>answer
... (최종 답변) ...

think 구간에서 모델은 자유롭게 추론하고, 실수하고, 되돌아가고, 다른 접근법을 시도한다. answer 구간에서는 정제된 최종 답을 낸다. Budget Forcing은 이 think 구간의 길이를 제어하는 것이다.

시각적 예시: AIME24 문제 풀이

논문에 포함된 실제 풀이 예시(Figure 5)를 보자. 게임 이론 문제에서 토큰 제거의 승패 위치를 분석하는 문제다:

s1-32B의 AIME24 풀이 과정 (요약) 실제 추론 흐름
분석 토큰 제거 게임... 작은 경우부터 패턴을 찾아보자. n=1이면 패배, n=2이면 승리...
패턴 발견 패배 위치가 5m 또는 5m+2 형태를 따르는 것 같다. 검증해 보자...
검증 n=5: 패배 ✓, n=7: 패배 ✓, n=10: 패배 ✓... 패턴이 맞다!
계산 2024 이하의 5m 또는 5m+2인 수의 개수 = 809

5장: 데이터 선별의 과학 — 어떤 1,000개인가

논문의 가장 실용적인 기여 중 하나는 데이터 선별 전략의 체계적 비교다.

제거 실험 (Ablation Study)

AIME24 정확도 — 데이터 선별 전략별
1K-다양성만 (균등 도메인) 26.7%
1K-가장 긴 추론만 33.3%
1K-랜덤 36.7%
s1K (품질+난이도+다양성) 50.0%
전체 59K 53.3%

핵심 발견:

  1. 랜덤 선택(36.7%)도 나쁘지 않다 — 하지만 s1K(50.0%)에 크게 뒤진다
  2. 다양성만으로는 부족하다(26.7%) — 도메인을 골고루 뽑아도 너무 쉬운 문제가 포함되면 효과 감소
  3. 전체 59K(53.3%)와 s1K(50.0%)의 격차가 작다 — 59배 더 많은 데이터, 56배 더 긴 학습 시간으로 겨우 3.3%p 차이
  4. 세 기준의 조합이 핵심 — 품질, 난이도, 다양성을 모두 충족할 때 최적

교훈: 데이터의 양보다 질과 구성이 중요하다. 59,000개의 무작위 데이터보다 잘 고른 1,000개가 거의 같은 성능을 낸다.

다양성 선택 알고리즘

s1K의 다양성 확보 방법이 흥미롭다:

  1. Claude 3.5 Sonnet으로 모든 문제를 수학 주제 분류(MSC) 체계에 따라 50개 도메인으로 분류
  2. 도메인을 균등하게 랜덤 선택
  3. 선택된 도메인 내에서 멱법칙(power-law) 가중치로 샘플링 — 추론 과정이 긴 문제를 선호

결과: 기하학 109문제, 정수론 98문제, 조합론 75문제 등 50개 도메인에 걸쳐 총 470만 토큰의 데이터셋.


6장: 순차 vs 병렬 — 두 가지 "더 생각하기"

테스트 타임 스케일링에는 두 가지 방향이 있다.

순차적 스케일링: Budget Forcing

하나의 추론 과정을 더 길게 만드는 것. s1의 핵심 방법.

  • 장점: 단순, 추가 모델 불필요
  • 단점: 약 6회 반복 후 성능 정체 (반복적 루프에 빠짐), 컨텍스트 윈도우 한계

병렬 스케일링: 다수결 투표 & 트리 탐색

여러 개의 독립적인 답을 생성하고, 가장 좋은 것을 고르는 것.

  • 다수결 투표(Majority Voting): k개의 답을 생성, 가장 많이 나온 답을 선택
  • REBASE: 프로세스 보상 모델(PRM)을 사용한 트리 탐색. 각 추론 단계마다 "이 방향이 맞는가?"를 평가
순차적 스케일링
하나의 긴 사고: A → 검증 → 수정 → 검증 → 답
↓ 보완 ↓
병렬 스케일링
여러 독립적 시도: A₁→답₁, A₂→답₂, A₃→답₃ → 최선 선택

논문은 두 접근을 결합하면 성능이 더 오른다는 것도 보여준다. Budget Forcing으로 각 추론을 길게 만들고, 여러 개를 생성해서 다수결 투표를 하면 — 어느 하나만 사용하는 것보다 우수하다.


7장: 2026년의 맥락에서 — 왜 이것이 중요한가

1. 추론 비용의 경제학이 바뀐다

2026년 현재, AI 추론 비용이 산업의 핵심 이슈다. OpenAI o1은 GPT-4 대비 3~5배 비싼 추론 비용이 든다. 더 오래 "생각"하면 더 많은 토큰을 생성하니까.

s1이 보여주는 것은, 이 추론 비용을 선택적으로 투입할 수 있다는 것이다:

  • 쉬운 질문 ("서울의 수도는?") → 짧은 추론, 저렴
  • 어려운 질문 (경시대회 수학) → 긴 추론, Budget Forcing 적용

모든 질문에 o1 수준의 추론을 적용할 필요가 없다. 문제의 난이도에 따라 추론 예산을 동적으로 조절하면 비용 효율이 극적으로 올라간다.

2. 오픈소스 추론 모델의 가능성

s1 논문 이후, 오픈소스 추론 모델 생태계가 빠르게 성장했다:

2024.09: OpenAI o1 (비공개)
2025.01: DeepSeek r1 (오픈소스, 80만+ 예제)
2025.01: s1-32B (오픈소스, 1,000 예제, 26분 학습)
2025~2026: QwQ, Bespoke, Sky-T1 등 다수의 오픈 추론 모델

s1은 이 흐름에서 "최소한의 자원으로 추론 능력을 부여할 수 있다" 는 것을 증명한 논문이다. 대학 연구실이나 스타트업도 H100 16대와 26분만 있으면 o1-preview급 추론 모델을 만들 수 있다.

3. "시험 시간 전략"이라는 새로운 연구 방향

s1 이전에는 모델 성능을 올리려면 학습을 다시 해야 했다. 더 많은 데이터, 더 나은 보상 모델, 더 정교한 RLHF.

s1이 열어젖힌 것은 추론 전략이라는 새로운 차원이다:

  • 어떤 문자열을 삽입할 때 자기 교정이 유도되는가? ("Wait" vs "Hmm")
  • 최적의 추론 길이는 얼마인가? (벤치마크와 난이도에 따라 다름)
  • 순차적 반복은 몇 번까지 효과적인가? (약 6회까지)
  • 순차 + 병렬을 어떻게 조합해야 최적인가?

이것은 학습을 한 번 하고, 추론 전략을 계속 개선할 수 있다는 뜻이다. 모델을 다시 학습하지 않고도 성능을 올리는 길이 열린 것이다.


8장: 한계와 열린 질문

s1이 아직 보여주지 못한 것

스케일 한계. Budget Forcing의 성능 향상은 약 6회 반복 후 정체된다. 모델이 반복적 루프에 빠지기 때문이다. 이론적으로 무한히 "더 오래 생각하게" 할 수는 없다.

도메인 제약. s1K가 수학에 집중되어 있어, GPQA(과학)에서는 o1-preview에 뒤진다. 데이터 구성을 바꾸면 달라질 수 있지만, 이는 검증되지 않았다.

평가의 비결정성. 논문의 부록에서 솔직히 인정하는 문제: 동일한 시드에서도 배치 크기, 텐서 병렬 설정에 따라 결과가 달라진다. 긴 추론 체인에서 작은 수치 변화가 눈덩이처럼 커진다.

RL 없는 한계. s1은 순수 지도 학습(SFT)만 사용했다. o1과 r1은 강화학습(RL)을 통해 모델이 스스로 추론 전략을 발견하게 한다. SFT만으로는 이 수준의 자기 발전이 어렵다.

열린 질문들

  1. 더 나은 "Wait"이 있는가? — 자기 교정을 더 효과적으로 유도하는 문자열이나 토큰 시퀀스가 있을 수 있다
  2. Budget Forcing + RL의 조합은? — RL로 학습한 모델에 Budget Forcing을 적용하면 어떤 시너지가 있을까
  3. 비수학 도메인에서의 효과는? — 코딩, 법률 추론, 의학 진단 등에서도 같은 원리가 작동하는가
  4. 최적의 데이터 비율은? — 1,000개가 최적인가, 500개나 2,000개는?

마치며: 단순함의 힘

s1 논문의 가장 놀라운 점은 아이디어의 단순함이다.

  • 좋은 문제 1,000개를 고르고
  • 사고 과정을 보여주는 형태로 학습하고
  • 답을 내려 할 때 "Wait"이라고 속삭인다

이것이 전부다. 복잡한 강화학습도, 수백만 달러의 학습 비용도, 수십만 개의 데이터도 필요 없다.

논문의 제목이 "s1: Simple test-time scaling" 인 이유다. 그리고 이 단순함이야말로 이 논문의 가장 큰 기여다.

과학의 역사에서, 가장 영향력 있는 발견들은 종종 놀라울 정도로 단순했다. 뉴턴의 운동 법칙, 다윈의 자연 선택, 섀넌의 정보 이론. 복잡한 현상의 핵심을 가장 간결한 원리로 포착하는 것.

s1이 말하는 원리는 이것이다:

AI는 이미 알고 있다. 단지 생각할 시간이 필요할 뿐이다.

"Wait" 한 마디. 그것이면 충분했다.


부록: 핵심 용어 정리

주요 개념 한눈에 보기
테스트 타임 스케일링(Test-Time Scaling): 학습이 아닌 추론 시점에서 더 많은 연산을 투입하여 성능을 높이는 접근법.

Budget Forcing: 모델의 추론 길이를 강제로 제어하는 디코딩 기법. 최소 예산(끝내지 못하게 함)과 최대 예산(강제 종료) 두 방향으로 작동.

s1K: 품질, 난이도, 다양성 세 기준으로 엄선한 1,000개의 추론 문제 데이터셋. 50개 수학/과학 도메인 포함.

순차적 스케일링(Sequential Scaling): 하나의 추론 과정을 더 길게 만드는 것. Budget Forcing이 대표적.

병렬 스케일링(Parallel Scaling): 여러 독립적 답을 생성하고 최선을 선택하는 것. 다수결 투표, 트리 탐색 등.

LIMA 가설(Superficial Alignment Hypothesis): 대형 언어 모델의 지식은 사전학습에서 얻어지며, 파인튜닝은 이미 있는 능력을 올바른 형식으로 끌어내는 역할만 한다는 가설.

이 글에서 다룬 논문: Niklas Muennighoff et al., "s1: Simple test-time scaling," arXiv:2501.19393 (2025). 코드, 모델, 데이터: github.com/simplescaling/s1