#LLM 학습

2개의 포스트

2025.09.16

Sophia 옵티마이저 특집: 곡률을 보는 눈으로 Adam을 2배 앞서다

Adam은 기울기만 본다. Sophia는 '지형의 곡률'까지 본다 — 가파른 골짜기에서는 조심스럽게, 평평한 평원에서는 과감하게. 스탠퍼드 팀이 만든 이 2차 옵티마이저는 GPT-2 학습을 2배 빠르게 만들었다. 그리고 같은 팀이 스스로 그 주장을 재검증했다.

코어닷투데이21분

기술AdamW옵티마이저

2025.09.02

AdamW 특집: 왜 거의 모든 LLM이 이 옵티마이저를 쓰는가

2017년, 프라이부르크의 두 연구자가 Adam의 가중치 감쇠에 숨겨진 버그를 발견했다. 이 '수정'이 BERT, GPT-3, LLaMA 등 거의 모든 대규모 언어 모델 학습의 표준이 되기까지 — AdamW의 탄생, 수학적 원리, 그리고 현대 AI에서의 위상을 추적한다.

코어닷투데이22분