Sophia옵티마이저2차 최적화헤시안LLM 학습

Sophia 옵티마이저 특집: 곡률을 보는 눈으로 Adam을 2배 앞서다

Adam은 기울기만 본다. Sophia는 '지형의 곡률'까지 본다 — 가파른 골짜기에서는 조심스럽게, 평평한 평원에서는 과감하게. 스탠퍼드 팀이 만든 이 2차 옵티마이저는 GPT-2 학습을 2배 빠르게 만들었다. 그리고 같은 팀이 스스로 그 주장을 재검증했다.

코어닷투데이2025-09-1621분

들어가며: 기울기만으로는 부족하다

수학책 위의 현명한 올빼미가 지형의 단면 구조까지 꿰뚫어 보는 반면, 작은 새들은 표면만 보는 모습

눈을 감고 언덕을 내려간다고 상상해 보자. 발밑의 기울기를 느껴 가장 가파른 내리막으로 걷는 것이 경사하강법이고, 그것을 효율적으로 하는 것이 Adam이다.

하지만 기울기만으로는 알 수 없는 것이 있다. 지금 서 있는 곳이 좁고 가파른 골짜기인지, 넓고 평평한 평원인지 — 즉, 지형의 곡률(curvature) 이다.

왼쪽: 눈가린 채 경사만 느끼며 걷기(1차) / 오른쪽: X-ray 고글로 지형 단면까지 보며 걷기(2차)

좁은 골짜기(높은 곡률): 작은 걸음이 필요 — 크게 걸으면 벽에 부딪힌다
넓은 평원(낮은 곡률): 큰 걸음이 유리 — 작게 걸으면 영원히 못 빠져나온다

Sophia는 이 곡률 정보를 대각 헤시안(diagonal Hessian) 추정으로 저렴하게 얻어, 파라미터마다 다른 보폭을 사용한다. 2023년 스탠퍼드의 5명이 발표한 이 옵티마이저는 GPT-2 학습에서 Adam 대비 2배 속도를 달성했다.

1부: 2차 최적화의 꿈과 좌절

뉴턴법: 이상적이지만 불가능한

뉴턴법(Newton's method) 은 기울기(1차 미분)뿐 아니라 헤시안(Hessian, 2차 미분) 을 사용한다. 헤시안은 손실 지형의 곡률을 알려주는 행렬이다.

뉴턴 업데이트: θ := θ - H⁻¹ · ∇L

기울기를 헤시안의 역행렬로 스케일링하면, 곡률이 큰 방향에서는 작게, 작은 방향에서는 크게 이동한다. 이차 수렴 — 최적점 근처에서 매 스텝마다 정밀도가 제곱으로 향상.

문제: 파라미터가 d개면 헤시안은 d × d 행렬이다. GPT-2 770M의 경우 770M × 770M — 저장만으로 수천 TB, 역행렬 계산은 불가능.

2차 방법의 역사

2차 최적화 방법 연대기

1970

L-BFGS — 기울기 이력으로 헤시안 역행렬 근사

1998

자연 기울기 (Amari) — 피셔 정보 행렬로 사전조건화

2015

K-FAC (Martens & Grosse) — 크로네커 분해 피셔 근사

2018

Shampoo (Gupta et al.) — 텐서별 사전조건화

2023

Sophia — 대각 헤시안 + 원소별 클리핑, LLM 특화

각 방법은 같은 질문에 다른 답을 준다: "헤시안의 정보를 어떻게 저렴하게 얻을 수 있는가?"

2부: Sophia의 핵심 아이디어

대각 헤시안: d² → d

Sophia의 핵심: 헤시안 전체(d × d)가 아니라 대각선 원소만(d개) 추정한다. 메모리는 Adam과 동일한 O(d), 하지만 곡률 정보가 포함된다.

두 가지 추정 방법

Sophia의 두 변형

Sophia-H 허친슨 추정기 랜덤 벡터로 대각 헤시안 비편향 추정. 역전파 1회 추가 비용

Sophia-G 가우스-뉴턴-바틀렛 모델 자체 분포에서 재샘플링. 편향적이지만 항상 양수

원소별 클리핑: 안전장치

비볼록 손실 지형에서 헤시안 대각 원소가 음수이거나 0에 가까울 수 있다. 단순히 기울기를 헤시안으로 나누면 발산한다.

Sophia의 해법: 원소별 클리핑(element-wise clipping).

곡률이 잘 추정된 좌표

→

뉴턴 스텝: m / h (곡률에 맞춰 보폭 조절)

곡률이 0이거나 불안정한 좌표

→

Sign 스텝으로 폴백: clip(m/h, ρ) → 최대 ±ρ

곡률이 신뢰할 수 있으면 뉴턴처럼 행동하고, 불안정하면 Lion/signSGD처럼 행동한다 — 적응적 안전장치다.

3부: 알고리즘과 논문

논문 정보

"Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training"
Hong Liu, Zhiyuan Li, David Hall, Percy Liang, Tengyu Ma
Stanford University / arXiv: 2305.14342 (2023년 5월) / ICLR 2024

이름의 뜻: Second-order Clipped Stochastic Optimization

Sophia 알고리즘 (Algorithm 3)

Sophia 전체 알고리즘

초기화: θ₀, m₀ = 0, h₀ = 0

매 스텝 t:
  1. 미니배치 기울기: g_t = ∇L(θ_t)
  2. 모멘텀 업데이트: m_t = β₁ · m_{t-1} + (1-β₁) · g_t
  3. k 스텝마다: 헤시안 대각 추정 ĥ_t → h_t = β₂ · h_{t-k} + (1-β₂) · ĥ_t
  4. 업데이트: θ_t = θ_{t-1} - η·λ·θ_{t-1} - η · clip(m_t / max(γ·h_t, ε), ρ)

핵심: 3단계에서 헤시안을 매 10스텝마다 추정 → 오버헤드 ~5%
4단계에서 클리핑이 안전장치 역할

기본 하이퍼파라미터

파라미터	값
β₁	0.965
β₂	0.99
k (헤시안 주기)	10 스텝
γ (클리핑 스케일)	0.01 (Sophia-H), 0.05 (Sophia-G)
가중치 감쇠	0.2
워밍업	2,000 스텝
스케줄	코사인, 최종 lr = 0.05 × 피크

4부: 실험 결과 — 2배 빠른 GPT

GPT-2 규모 실험

모델	Sophia 필요 스텝	AdamW 필요 스텝	속도 향상
GPT-2 Small (125M)	~100K	~200K	2×
GPT-2 Medium (355M)	~100K	~200K	2×
GPT-2 Large (770M)	~200K	~400K	2×
GPT NeoX (1.5B)	50% 절감	기준	2×

540M = 770M의 등식

Sophia로 학습한 540M 모델이 AdamW로 학습한 770M 모델과 같은 손실을 달성 — 더 작은 모델로 동일한 성능을 내므로 추론 비용까지 절감.

학습 안정성

Sophia는 기울기 클리핑이 트리거되는 비율이 1% 미만 — Adam과 Lion은 10% 이상. 클리핑이 이미 알고리즘에 내장되어 있어 외부 클리핑 의존도가 낮다.

5부: 저자들의 이야기

Sophia의 저자들 (Stanford)

Hong Liu (1저자) Stanford PhD Voyage AI 공동설립 → MongoDB 인수(2025.2)

Zhiyuan Li Princeton PhD → Stanford 박사후 TTIC 조교수 (최적화 이론)

David Hall UC Berkeley PhD Stanford CRFM, Levanter 프레임워크 개발

Percy Liang Stanford 부교수, CRFM 소장 Together AI 공동설립, HELM 벤치마크

Tengyu Ma Stanford 조교수 IMO 은메달(2007), 비볼록 최적화 이론

실용 시스템(Hall의 Levanter, Liang의 CRFM 인프라)과 이론(Ma, Li의 최적화 수학)이 만난 팀 구성이 Sophia의 설계를 가능하게 했다.

6부: 정직한 자기 검증 — 2배가 정말 2배인가?

데이터 로더 버그 발견

2025년 9월, "Fantastic Pretraining Optimizers and Where to Find Them"이라는 논문이 발표되었다. 저자에 David Hall, Tengyu Ma, Percy Liang — Sophia 원 저자 5명 중 3명이 포함되어 있다.

이 논문은 Sophia 원본 코드의 데이터 로더가 데이터 순서를 완전히 무작위화하지 않았다는 것을 발견했다. 이로 인해 AdamW의 기준 성능이 인위적으로 낮아져, Sophia의 우위가 과대 평가되었다.

정정된 결과 (2025년 엄격한 벤치마크)

공정한 하이퍼파라미터 튜닝 후:
• 모델 크기가 커질수록 속도 향상이 감소
• 1.2B 규모에서는 AdamW 대비 ~1.1배 수준으로 줄어듦
• AdamW가 하류 과제(zero-shot) 정확도에서 여전히 더 높음

자기 검증의 의미:
같은 팀이 자신의 주장을 재검증하고 한계를 공개적으로 보고한 것은 과학적 성실성의 모범

왜 AdamW를 대체하지 못했나

하이퍼파라미터 튜닝 생태계: AdamW는 수년간의 레시피가 축적. Sophia는 γ, ρ 등 새로운 하이퍼파라미터가 추가
2배 주장의 약화: 엄격한 벤치마크에서 규모가 커지면 이점 감소
하류 일반화 격차: 학습 손실은 낮지만, 하류 과제 정확도는 AdamW가 우세
대각 근사의 한계: 행렬 기반 옵티마이저(Muon, SOAP)가 더 풍부한 곡률 정보 포착
~6% 계산 오버헤드: "무시할 수 있다"고 했지만, 독립 벤치마크에서 일관적으로 측정됨

7부: Sophia가 열어젖힌 것 — 2차 방법의 르네상스

2차 방법이 왜 다시 주목받는가

LLM 학습 비용이 수백만 달러 — 10%만 절약해도 거대한 금액
H100 등 현대 GPU의 계산 여력이 2차 방법의 오버헤드를 흡수 가능
스케일링 법칙 시대에서 모든 FLOP의 효율 극대화가 핵심

현재 최전선의 비교

2차/사전조건화 옵티마이저 비교 (2025)

Sophia (대각) 대각 헤시안 + 클리핑 메모리 효율적, 구현 단순

Muon / SOAP (행렬) 직교화 / Shampoo 변형 더 풍부한 곡률, 현재 최선

K-FAC (블록) 층별 크로네커 분해 풍부한 구조, 높은 비용

AdamW (대각선적) 기울기² EMA (곡률 아님) 곡률 불포함, 하지만 안정적 표준

2025년의 주요 발견: 가장 빠른 옵티마이저는 모두 행렬 사전조건화를 사용한다. 대각 근사(Sophia)는 중간 단계였고, 행렬 기반(Muon, SOAP)이 다음 세대로 부상 중이다. 다만 규모가 커지면(1.2B+) 모든 사전조건화 방법의 이점이 수렴하는 경향이 관찰된다.

맺으며: 지혜(Sophia)의 교훈

Sophia의 이야기에서 가장 인상적인 것은 알고리즘 자체가 아니라 연구의 자세다.

2023년 5월, 스탠퍼드 팀은 "Adam 대비 2배 빠르다"는 인상적인 결과를 발표했다. ICLR 2024에 채택되었고, 커뮤니티의 주목을 받았다.

2025년 9월, 같은 팀의 3명이 자신의 코드에서 데이터 로더 버그를 발견하고, 공정한 조건에서 재실험하여, 속도 향상이 원래 주장보다 작다는 것을 공개적으로 보고했다.

이것이 과학이 작동하는 방식이다 — 주장을 하고, 검증하고, 수정한다.

기술적으로, Sophia가 남긴 유산은 분명하다:

대각 헤시안도 유용하다: 전체 헤시안이 아니어도 곡률 정보가 최적화를 가속한다
클리핑은 비볼록 최적화의 안전장치다: 뉴턴법의 발산 문제를 우아하게 해결
2차 방법은 실용적일 수 있다: Sophia가 보여준 "10스텝마다 가볍게 추정"이라는 패턴은 후속 연구의 템플릿이 되었다

AdamW는 아직 왕좌에 있다. 하지만 Sophia, Muon, SOAP이 보여주는 것은 명확하다 — 기울기만으로는 부족하고, 곡률이 답이다. 진정한 "지혜(Sophia)"는 표면의 기울기 너머를 보는 것에 있다.

기술2025.09.02