coredot.today
Learning Rate Schedule의 역사: 1951년 수학 정리에서 GPT의 코사인 스케줄까지
블로그로 돌아가기
Learning RateCosine ScheduleWarmupAdamW딥러닝최적화

Learning Rate Schedule의 역사: 1951년 수학 정리에서 GPT의 코사인 스케줄까지

딥러닝에서 가장 중요한 하이퍼파라미터, 학습률. 1951년 Robbins-Monro의 수렴 조건에서 시작해, AlexNet의 계단식 감소, 코사인 어닐링, 워밍업, 그리고 GPT가 사용하는 현대적 스케줄까지 — 75년의 역사를 논문과 사례로 추적한다.

코어닷투데이2025-11-1538

들어가며: "학습률은 종종 가장 중요한 하이퍼파라미터다"

2012년, 요슈아 벤지오(Yoshua Bengio)는 딥러닝 실전 가이드에서 이렇게 썼다:

"학습률(learning rate)은 종종 가장 중요한 단일 하이퍼파라미터이며, 항상 튜닝해야 한다."

앤드류 응(Andrew Ng)도 반복적으로 같은 말을 했다. 수십 개의 하이퍼파라미터 중에서 단 하나만 튜닝할 시간이 있다면, 그것은 학습률이어야 한다고.

왜 이 숫자 하나가 이렇게 중요한가? 학습률은 "모델이 한 번에 얼마나 크게 배울 것인가"를 결정한다.

  • 너무 크면: 모델이 최적점을 뛰어넘어 발산한다 (loss가 NaN이 되는 순간!)
  • 너무 작으면: 수렴하는 데 영원히 걸리거나, 나쁜 지역 최솟값에 갇힌다
  • 적절하면: 손실 지형(loss landscape)을 부드럽게 내려가 좋은 해에 도달한다
학습률의 직관적 비유
🏔️ 산에서 내려가는 등산객
학습률 = 한 걸음의 크기
너무 큰 걸음: 절벽을 뛰어넘어 반대편 산으로 날아감 (발산)
너무 작은 걸음: 해가 지도록 산 중턱에서 제자리 (수렴 불가)
적절한 걸음: 안전하게 계곡까지 도달 (수렴)
💡 핵심 질문
"걸음 크기를 처음부터 끝까지 같게 유지해야 할까, 아니면 상황에 따라 바꿔야 할까?"
이 질문에 대한 75년의 답이 학습률 스케줄의 역사다.

이 글은 학습률 스케줄의 75년 역사를 추적한다. 1951년의 수학 정리에서, 2025년 GPT와 DeepSeek이 사용하는 최신 스케줄까지.


연대기 한눈에 보기

1951 Robbins-Monro 2012 Step Decay 2016 Cosine 2017 Warmup 2020 GPT-3 패턴 2024 WSD

제1장: 이론적 기반 (1951~2011)

1951 — Robbins-Monro: 모든 것의 시작

1951년, 수학자 Herbert RobbinsSutton MonroThe Annals of Mathematical Statistics"A Stochastic Approximation Method"을 발표한다. 이 논문은 확률적 최적화에서 스텝 사이즈(= 학습률)의 수렴 조건을 증명했다.

Robbins-Monro 수렴 조건 (1951)
두 가지 조건
조건 1: Σ aₙ = ∞ — 스텝의 합이 무한대 (충분히 탐색)
조건 2: Σ aₙ² < ∞ — 스텝 제곱의 합이 유한 (결국 수렴)
직관적 의미
걸음은 점점 작아져야 하지만(조건 2), 너무 빨리 작아지면 안 된다(조건 1). aₙ = 1/n이 가장 유명한 예 — 조화급수는 발산하지만 제곱합은 수렴한다.

이 정리는 "학습률을 시간에 따라 줄여야 한다"는 아이디어의 수학적 토대가 되었다. 75년이 지난 지금도, 모든 학습률 스케줄은 이 두 조건의 정신을 따른다.

1958~1960 — 퍼셉트론과 ADALINE

Frank Rosenblatt(1958)이 퍼셉트론 논문에서 "가중치(weight)", "학습률(learning rate)", "훈련 세트(training set)"라는 현대적 용어를 도입했다. 초기 실험에서 학습률을 10⁻¹에서 10⁻⁵까지 선형적으로 변화시켰다 — 이것이 기록상 최초의 학습률 스케줄이다.

Widrow-Hoff(1960)의 ADALINE은 고정 학습률을 사용하는 LMS(Least Mean Squares) 규칙을 제안했다.

고정 학습률 시대의 문제

수십 년간 대부분의 신경망 훈련은 고정 학습률을 사용했다. 문제는 명확했다:

  • 처음에는 큰 학습률이 필요 (빠른 학습)
  • 나중에는 작은 학습률이 필요 (미세 조정)
  • 하지만 고정 학습률은 하나만 선택해야 한다

이 딜레마를 해결하려는 시도가 2012년부터 본격화된다.


제2장: 계단식 감소 — 딥러닝 르네상스의 스케줄 (2012~2015)

AlexNet (2012): "검증 에러가 정체되면 1/10로 줄여라"

2012년, Krizhevsky, Sutskever, Hinton의 AlexNet이 ImageNet 대회를 압도적으로 승리하며 딥러닝 르네상스를 시작했다. AlexNet의 학습률 스케줄은 단순했다:

AlexNet의 Step Decay (2012)
시작학습률 = 0.01. SGD + Momentum 0.9 + Weight Decay 0.0005
관찰검증 에러(validation error)가 더 이상 줄어들지 않으면...
감소학습률을 10으로 나눈다: 0.01 → 0.001 → 0.0001 → 0.00001
결과총 3번 감소. 90 에포크 훈련

VGG (2014)와 ResNet (2015)도 같은 패턴

VGG: 초기 LR 0.001 (AlexNet보다 10배 작음), 검증 정확도 정체 시 1/10 감소. 총 3회.

ResNet**: 초기 LR 0.1 (VGG의 100배!). 에러 정체 시 1/10 감소. 60만 스텝 훈련. 주목할 점: He et al.은 처음 몇 에포크에 작은 상수 LR을 사용한 뒤 목표 LR로 전환했다 — 이것이 **워밍업(warmup)의 초기 형태다.

왜 계단식이 수년간 기본이었나

  1. 단순함: 규칙 하나만 기억하면 된다 — "정체되면 1/10"
  2. 시각적 확인: 학습 곡선을 보면서 수동으로 판단 가능
  3. 효과적: ImageNet 우승 모델들이 모두 사용

하지만 한계도 명확했다:

  • "언제" 줄일지를 사람이 판단해야 한다 (자동화 어려움)
  • 갑작스러운 감소가 학습 불안정을 유발할 수 있다
  • 감소 횟수와 비율이 또 다른 하이퍼파라미터가 된다

제3장: 적응적 학습률 — 파라미터마다 다르게 (2011~2014)

AdaGrad → RMSprop → Adam

"학습률을 전체적으로 줄이는 대신, 파라미터마다 개별적으로 조정하면 어떨까?"

방법연도핵심 아이디어한계
AdaGrad (Duchi et al.)2011누적 기울기 제곱으로 LR 조정LR이 0으로 수렴 (학습 중단)
RMSprop (Hinton)2012지수 이동 평균으로 AdaGrad 수정논문 미발표 (Coursera 강의)
Adam (Kingma & Ba)2014모멘텀 + 적응적 LR 결합L2 정규화와 궁합 불량

Adam(2014, arXiv:1412.6980, ICLR 2015 포스터)은 빠르게 가장 인기 있는 옵티마이저가 되었다. 기본 설정(lr=0.001, β1=0.9, β2=0.999)만으로도 대부분의 태스크에서 합리적인 성능을 냈다.

하지만 Adam에도 문제가 있었다. 이미지 분류에서 SGD+Momentum에 일반화 성능(generalization)이 뒤졌다. 이유는 나중에 밝혀진다.


제4장: 코사인 어닐링 — 곡선이 계단을 이기다 (2016)

Loshchilov & Hutter: "SGDR"

2016년 8월, 프라이부르크 대학교의 Ilya LoshchilovFrank Hutter가 획기적인 논문을 발표한다.

"SGDR: Stochastic Gradient Descent with Warm Restarts" (arXiv:1608.03983, ICLR 2017)

핵심 아이디어: 학습률을 코사인 함수를 따라 부드럽게 감소시킨다.

코사인 어닐링 수식
공식
η(t) = η_min + ½(η_max − η_min)(1 + cos(π · T_cur / T_i))
직관
학습률이 코사인 곡선을 따라 max에서 min으로 부드럽게 감소. 계단식 감소의 "갑작스러운 점프" 없이 연속적으로 줄어든다.

웜 리스타트(Warm Restarts): 주기적으로 다시 크게

SGDR의 또 다른 혁신: 코사인이 최솟값에 도달하면 학습률을 다시 최댓값으로 올린다. 이것이 "Warm Restart"다. "Warm"인 이유 — 파라미터를 초기화하지 않고, 현재 위치에서 큰 학습률로 다시 탐색을 시작하기 때문이다.

지역 최솟값에 갇혔을 때, 갑자기 학습률을 올려 빠져나가는 효과가 있다.

왜 코사인이 계단을 이겼나

계단식 감소코사인 어닐링
"언제 줄일지" 결정 필요미리 정해진 스케줄, 튜닝 불필요
갑작스러운 감소 → 불안정부드러운 감소 → 안정적
감소 횟수가 추가 하이퍼파라미터자동 — 주기만 설정

CIFAR-10에서 3.14%, CIFAR-100에서 16.21%로 당시 SOTA를 달성. 기존 스케줄 대비 2~4배 적은 에포크로 같거나 더 나은 성능.


제5장: 워밍업 — 시작이 반이다 (2017)

문제: 큰 배치에서 학습이 폭발한다

2017년, Facebook AI Research(현 Meta AI)의 Goyal et al.이 이례적인 논문을 발표한다.

"Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour" (arXiv:1706.02677)

256개 GPU에서 배치 크기 8,192로 ResNet-50을 1시간 만에 훈련했다. 핵심 기법 두 가지:

1. 선형 스케일링 규칙: 배치 크기를 k배 늘리면 학습률도 k배. 배치 256에서 LR 0.1이면, 배치 8192(32배)에서 LR 3.2.

2. 점진적 워밍업(Gradual Warmup): 처음 5 에포크 동안 LR을 0.1에서 3.2까지 선형적으로 증가시킨다.

왜 워밍업이 필요한가

워밍업이 필요한 이유
훈련 초반의 상황
모델의 가중치가 랜덤 초기화 상태. 분류 헤드가 무의미한 손실을 계산. 기울기가 엄청나게 크고 불안정.
워밍업 없이 큰 LR을 적용하면?
거대한 기울기 × 큰 학습률 = 파라미터가 크게 흔들림 → 사전 훈련된 가중치가 망가짐 → 학습 실패
워밍업의 역할
작은 LR로 시작하여 모델이 안정적인 손실 지형 영역으로 이동할 시간을 준다. 헤시안(Hessian)의 최대 고유값이 점차 줄어들어, 큰 LR을 견딜 수 있는 평탄한 영역에 도달한다.

Transformer의 "Noam" 스케줄 (2017)

같은 해, Vaswani et al.의 "Attention Is All You Need"(arXiv:1706.03762)가 Transformer를 소개하며 독특한 스케줄을 사용한다:

hljs language-python
# "Noam" 스케줄 (공동 저자 Noam Shazeer의 이름)
lr = d_model**(-0.5) * min(
    step**(-0.5),
    step * warmup_steps**(-1.5)
)

처음 warmup_steps(기본 4000) 동안 선형 증가, 이후 역제곱근 감소. 이것이 Transformer 시대의 첫 번째 표준 스케줄이 된다.


제6장: AdamW — 가중치 감쇠의 올바른 방법 (2017/2019)

Loshchilov & Hutter의 두 번째 혁신

코사인 어닐링의 저자 Loshchilov & Hutter가 또 다른 중요한 논문을 발표한다.

"Decoupled Weight Decay Regularization" (arXiv:1711.05101, ICLR 2019)

발견: L2 정규화와 가중치 감쇠(weight decay)는 SGD에서는 동일하지만, Adam에서는 다르다. Adam의 적응적 스케일링이 L2 정규화의 의도된 효과를 왜곡한다.

해결**: 가중치 감쇠를 기울기 업데이트에서 **분리(decouple)하여 직접 파라미터에 적용. 이것이 AdamW.

결과: Adam이 SGD+Momentum에 뒤지던 일반화 성능 문제가 해결되었다. AdamW는 빠르게 사실상의 표준 옵티마이저가 된다.


제7장: 현대적 표준의 탄생 — Warmup + Cosine + AdamW (2018~2023)

골든 레시피의 확립

2018~2023년, "선형 워밍업 → 코사인 감소 + AdamW"가 Transformer/LLM 훈련의 골든 레시피로 확립된다.

THE GOLDEN RECIPE — 현대 LLM의 학습률 스케줄2018~현재
WARMUP처음 N 스텝 동안 LR을 0에서 최대값까지 선형 증가
COSINE DECAY워밍업 이후 코사인 곡선을 따라 최대값에서 최소값까지 부드럽게 감소
OPTIMIZERAdamW: 적응적 학습률 + 분리된 가중치 감쇠

모델별 구체적 설정

모델연도최대 LR워밍업코사인 최솟값옵티마이저
BERT20182,000 스텝선형 감소 0Adam (특수 설정)
GPT-22019선형 워밍업코사인 0
GPT-32020모델별 상이375M 토큰코사인 → 10%
Chinchilla20222e-33,000 스텝코사인 → 0
LLaMA2023모델별 상이2,000 스텝코사인 → 10%AdamW (β1=0.9, β2=0.95)
LLaMA 220231.5e-42,000 스텝코사인 → 10%AdamW

주목할 점:

  • GPT-3과 LLaMA**: 코사인을 **최대값의 10%까지만 감소 — 완전히 0으로 떨어뜨리지 않는다
  • Chinchilla: 0까지 감소 — 하지만 Chinchilla는 "코사인 주기 = 훈련 기간"일 때만 최적이라고 발견
  • 워밍업 기간: 대체로 전체 훈련의 1~10%

제8장: 사이클릭 학습률과 1-사이클 정책 (2015~2018)

Leslie Smith: 학습률의 장인

미 해군연구소(NRL)의 Leslie N. Smith는 학습률에 관한 일련의 영향력 있는 논문을 발표했다.

LR 범위 테스트 (LR Finder)

"Cyclical Learning Rates for Training Neural Networks" (arXiv:1506.01186, WACV 2017)

아이디어: 학습률을 수 에포크에 걸쳐 선형으로 증가시키면서 손실을 기록한다. 손실이 감소하기 시작하는 지점이 좋은 최솟값, 손실이 발산하기 시작하는 지점이 최댓값이다.

이 "LR 범위 테스트"는 fast.ai에 의해 대중화되어 실무에서 널리 사용된다.

초수렴(Super-Convergence)

"Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates" (Smith & Topin, arXiv:1708.07120, SPIE 2019)

1-사이클 정책(1-Cycle Policy): 학습률을 한 번 올렸다가(→ 최대) 한 번 내리는(→ 최소) 단일 사이클. 마지막에 "소멸 단계(annihilation phase)"를 추가.

핵심 발견: 큰 학습률 자체가 정규화 역할을 한다. 따라서 학습률을 크게 올릴 때는 다른 정규화(가중치 감쇠, 드롭아웃)를 줄여야 한다.

결과: ResNet-56이 CIFAR-10에서 50 에포크만에 92.3% — 기존 대비 훈련 시간 10배 단축.


제9장: WSD — 총 훈련 스텝을 모르는 시대의 스케줄 (2024)

코사인 스케줄의 치명적 단점

코사인 스케줄에는 하나의 전제가 있다: 총 훈련 스텝 수를 미리 알아야 한다. 코사인의 주기를 설정해야 하기 때문이다.

하지만 실전에서는:

  • "데이터를 더 모았으니 훈련을 연장하고 싶은데?"
  • "중간에 다른 데이터로 추가 학습(continual pre-training)하고 싶은데?"
  • "언제 끝낼지 아직 모르는데?"

코사인 스케줄은 이미 최솟값에 도달한 상태에서 훈련을 연장하면, 학습률이 너무 낮아 의미 있는 학습이 일어나지 않는다.

MiniCPM의 해결책: Warmup → Stable → Decay

2024년, MiniCPM 팀(Hu et al., arXiv:2404.06395)이 WSD(Warmup-Stable-Decay) 스케줄을 제안한다.

WSD SCHEDULE (2024)3단계
① WARMUP선형 증가. 전체의 1~2%
② STABLE최대 LR 유지. 전체의 60~80%. 원하는 만큼 계속 가능!
③ DECAY급격한 감소. 전체의 10~25%. 고품질 데이터 비율 높임

핵심 장점: Stable 단계에서 총 훈련 길이를 미리 정하지 않아도 된다. 원하는 만큼 훈련하다가, 충분하다고 판단되면 Decay에 진입한다.

"강의 계곡" 해석: Stable 단계에서 큰 LR은 "언덕" 방향으로 진동을 유발하지만, "계곡"(저곡률 다양체)을 따라서는 빠르게 이동한다. Decay에서 진동이 억제되면, 축적된 진전이 드러난다.

DeepSeek-V3도 WSD의 변형을 채택했다 — 코사인 어닐링을 감소 단계에 적용하는 하이브리드 방식.


제10장: 실전 가이드 — 어떻게 선택할 것인가

학습률 선택 가이드

학습률 스케줄 선택 플로우
질문 1LLM 사전 훈련인가? → Cosine + Warmup + AdamW (골든 레시피)
질문 2총 훈련 스텝을 모르거나, 이후 추가 훈련이 필요한가? → WSD
질문 3파인튜닝인가? → 코사인 + 워밍업, 하지만 LR을 1/10~1/100로 낮춤 (1e-5 ~ 5e-5)
질문 4빠른 실험이 필요한가? → 1-사이클 정책 (Leslie Smith)
기본값모르겠으면 → Cosine + Warmup + AdamW

워밍업은 얼마나?

설정일반적 값
LLM 사전 훈련전체의 110%, 또는 2,0004,000 스텝
파인튜닝전체의 6~10%
큰 배치 훈련5 에포크 (Goyal et al.)

: 워밍업이 길수록 가능한 최대 LR의 범위가 넓어진다 — 튜닝이 쉬워진다. 짧은 워밍업은 최적 LR을 정확히 맞춰야 하지만, 긴 워밍업은 대략적인 값으로도 안정적으로 학습한다.

코사인은 어디까지 감소?

  • 0까지 (Chinchilla): 가장 공격적. 훈련 종료 시점이 확실할 때
  • 최대값의 10%까지 (GPT-3, LLaMA): 약간의 학습 능력을 유지. 더 안정적
  • 실전 권장: 10%가 더 안전한 선택. 추가 훈련 가능성이 있다면 특히

모델 크기에 따른 학습률

모델 크기일반적 최대 LR
~100M 파라미터3e-4 ~ 6e-4
~1B 파라미터1e-4 ~ 3e-4
~7B 파라미터1e-4 ~ 1.5e-4
~65B+ 파라미터5e-5 ~ 1.5e-4

큰 모델일수록 작은 학습률. muP(Maximal Update Parameterization, Yang et al., 2022)를 사용하면 작은 모델에서 튜닝한 최적 LR을 큰 모델에 제로샷 전이할 수 있다.


종합 연대기

학습률 스케줄 75년 연대기
1951 Robbins-Monro 수렴 조건
1958 Rosenblatt — LR 용어 도입
2011 AdaGrad — 적응적 LR 시작
2012 AlexNet — Step Decay 표준화
2014 Adam — 가장 인기 있는 옵티마이저
2015 Leslie Smith — LR Finder
2016 코사인 어닐링 (SGDR) ★
2017 워밍업 정립 + AdamW + Transformer ★
2018 BERT — Warmup + Linear Decay
2020 GPT-3 — Warmup + Cosine 표준 ★
2022 Chinchilla / muP
2024 WSD — 유연한 대안

마치며: 75년의 교훈

학습률 스케줄의 75년 역사가 말해주는 것:

1. 단순함이 오래간다. 코사인 어닐링은 수식 한 줄이지만, 8년째 사실상의 표준이다. 복잡한 스케줄이 논문에서 제안되어도, 실전에서 살아남는 것은 단순하고 강건한 방법이다.

2. 문제가 스케줄을 만든다. Step Decay는 수동 관찰로 충분했던 시대의 산물이고, 워밍업은 대규모 배치 훈련의 필요에서, WSD는 지속적 사전 훈련의 요구에서 탄생했다.

3. 옵티마이저와 스케줄은 한 쌍이다. Adam의 문제를 AdamW가 해결하고, AdamW에 코사인 스케줄이 결합되어 골든 레시피가 완성된 것처럼 — 옵티마이저와 스케줄은 함께 진화한다.

4. "가장 중요한 하이퍼파라미터"는 여전히 중요하다. 75년간의 연구에도 불구하고, 벤지오의 2012년 조언은 유효하다. 학습률은 여전히 가장 중요한 하이퍼파라미터이며, 스케줄의 선택은 모델의 성패를 가른다.


참고 논문 및 자료

  • Robbins, H. & Monro, S. (1951). "A Stochastic Approximation Method." Ann. Math. Stat.
  • Krizhevsky, A., et al. (2012). "ImageNet Classification with Deep Convolutional Neural Networks." (AlexNet)
  • Kingma, D. & Ba, J. (2014). "Adam: A Method for Stochastic Optimization." ICLR 2015.
  • Smith, L. (2015). "Cyclical Learning Rates for Training Neural Networks." WACV 2017.
  • He, K., et al. (2016). "Deep Residual Learning for Image Recognition." CVPR 2016.
  • Loshchilov, I. & Hutter, F. (2016). "SGDR: Stochastic Gradient Descent with Warm Restarts." ICLR 2017.
  • Goyal, P., et al. (2017). "Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour." arXiv:1706.02677.
  • Vaswani, A., et al. (2017). "Attention Is All You Need." NeurIPS 2017.
  • Loshchilov, I. & Hutter, F. (2019). "Decoupled Weight Decay Regularization." ICLR 2019.
  • Brown, T., et al. (2020). "Language Models are Few-Shot Learners." (GPT-3) NeurIPS 2020.
  • Hoffmann, J., et al. (2022). "Training Compute-Optimal Large Language Models." (Chinchilla)
  • Yang, G., et al. (2022). "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer." (muP)
  • Touvron, H., et al. (2023). "LLaMA: Open and Efficient Foundation Language Models."
  • Hu, S., et al. (2024). "MiniCPM: Unveiling the Potential of Small Language Models." (WSD Schedule)
  • Smith, L. & Topin, N. (2019). "Super-Convergence." SPIE.
  • Bengio, Y. (2012). "Practical Recommendations for Gradient-Based Training of Deep Architectures."