
Sophia 옵티마이저 특집: 곡률을 보는 눈으로 Adam을 2배 앞서다
Adam은 기울기만 본다. Sophia는 '지형의 곡률'까지 본다 — 가파른 골짜기에서는 조심스럽게, 평평한 평원에서는 과감하게. 스탠퍼드 팀이 만든 이 2차 옵티마이저는 GPT-2 학습을 2배 빠르게 만들었다. 그리고 같은 팀이 스스로 그 주장을 재검증했다.

Adam은 기울기만 본다. Sophia는 '지형의 곡률'까지 본다 — 가파른 골짜기에서는 조심스럽게, 평평한 평원에서는 과감하게. 스탠퍼드 팀이 만든 이 2차 옵티마이저는 GPT-2 학습을 2배 빠르게 만들었다. 그리고 같은 팀이 스스로 그 주장을 재검증했다.

눈을 감고 언덕을 내려간다고 상상해 보자. 발밑의 기울기를 느껴 가장 가파른 내리막으로 걷는 것이 경사하강법이고, 그것을 효율적으로 하는 것이 Adam이다.
하지만 기울기만으로는 알 수 없는 것이 있다. 지금 서 있는 곳이 좁고 가파른 골짜기인지, 넓고 평평한 평원인지 — 즉, 지형의 곡률(curvature) 이다.

Sophia는 이 곡률 정보를 대각 헤시안(diagonal Hessian) 추정으로 저렴하게 얻어, 파라미터마다 다른 보폭을 사용한다. 2023년 스탠퍼드의 5명이 발표한 이 옵티마이저는 GPT-2 학습에서 Adam 대비 2배 속도를 달성했다.
뉴턴법(Newton's method) 은 기울기(1차 미분)뿐 아니라 헤시안(Hessian, 2차 미분) 을 사용한다. 헤시안은 손실 지형의 곡률을 알려주는 행렬이다.
뉴턴 업데이트: θ := θ - H⁻¹ · ∇L
기울기를 헤시안의 역행렬로 스케일링하면, 곡률이 큰 방향에서는 작게, 작은 방향에서는 크게 이동한다. 이차 수렴 — 최적점 근처에서 매 스텝마다 정밀도가 제곱으로 향상.
문제: 파라미터가 d개면 헤시안은 d × d 행렬이다. GPT-2 770M의 경우 770M × 770M — 저장만으로 수천 TB, 역행렬 계산은 불가능.
각 방법은 같은 질문에 다른 답을 준다: "헤시안의 정보를 어떻게 저렴하게 얻을 수 있는가?"
Sophia의 핵심: 헤시안 전체(d × d)가 아니라 대각선 원소만(d개) 추정한다. 메모리는 Adam과 동일한 O(d), 하지만 곡률 정보가 포함된다.
비볼록 손실 지형에서 헤시안 대각 원소가 음수이거나 0에 가까울 수 있다. 단순히 기울기를 헤시안으로 나누면 발산한다.
Sophia의 해법: 원소별 클리핑(element-wise clipping).
곡률이 신뢰할 수 있으면 뉴턴처럼 행동하고, 불안정하면 Lion/signSGD처럼 행동한다 — 적응적 안전장치다.
| 파라미터 | 값 |
|---|---|
| β₁ | 0.965 |
| β₂ | 0.99 |
| k (헤시안 주기) | 10 스텝 |
| γ (클리핑 스케일) | 0.01 (Sophia-H), 0.05 (Sophia-G) |
| 가중치 감쇠 | 0.2 |
| 워밍업 | 2,000 스텝 |
| 스케줄 | 코사인, 최종 lr = 0.05 × 피크 |
| 모델 | Sophia 필요 스텝 | AdamW 필요 스텝 | 속도 향상 |
|---|---|---|---|
| GPT-2 Small (125M) | ~100K | ~200K | 2× |
| GPT-2 Medium (355M) | ~100K | ~200K | 2× |
| GPT-2 Large (770M) | ~200K | ~400K | 2× |
| GPT NeoX (1.5B) | 50% 절감 | 기준 | 2× |
Sophia로 학습한 540M 모델이 AdamW로 학습한 770M 모델과 같은 손실을 달성 — 더 작은 모델로 동일한 성능을 내므로 추론 비용까지 절감.
Sophia는 기울기 클리핑이 트리거되는 비율이 1% 미만 — Adam과 Lion은 10% 이상. 클리핑이 이미 알고리즘에 내장되어 있어 외부 클리핑 의존도가 낮다.
실용 시스템(Hall의 Levanter, Liang의 CRFM 인프라)과 이론(Ma, Li의 최적화 수학)이 만난 팀 구성이 Sophia의 설계를 가능하게 했다.
2025년 9월, "Fantastic Pretraining Optimizers and Where to Find Them"이라는 논문이 발표되었다. 저자에 David Hall, Tengyu Ma, Percy Liang — Sophia 원 저자 5명 중 3명이 포함되어 있다.
이 논문은 Sophia 원본 코드의 데이터 로더가 데이터 순서를 완전히 무작위화하지 않았다는 것을 발견했다. 이로 인해 AdamW의 기준 성능이 인위적으로 낮아져, Sophia의 우위가 과대 평가되었다.
2025년의 주요 발견: 가장 빠른 옵티마이저는 모두 행렬 사전조건화를 사용한다. 대각 근사(Sophia)는 중간 단계였고, 행렬 기반(Muon, SOAP)이 다음 세대로 부상 중이다. 다만 규모가 커지면(1.2B+) 모든 사전조건화 방법의 이점이 수렴하는 경향이 관찰된다.
Sophia의 이야기에서 가장 인상적인 것은 알고리즘 자체가 아니라 연구의 자세다.
2023년 5월, 스탠퍼드 팀은 "Adam 대비 2배 빠르다"는 인상적인 결과를 발표했다. ICLR 2024에 채택되었고, 커뮤니티의 주목을 받았다.
2025년 9월, 같은 팀의 3명이 자신의 코드에서 데이터 로더 버그를 발견하고, 공정한 조건에서 재실험하여, 속도 향상이 원래 주장보다 작다는 것을 공개적으로 보고했다.
이것이 과학이 작동하는 방식이다 — 주장을 하고, 검증하고, 수정한다.
기술적으로, Sophia가 남긴 유산은 분명하다:
AdamW는 아직 왕좌에 있다. 하지만 Sophia, Muon, SOAP이 보여주는 것은 명확하다 — 기울기만으로는 부족하고, 곡률이 답이다. 진정한 "지혜(Sophia)"는 표면의 기울기 너머를 보는 것에 있다.