#가중치 감쇠

1개의 포스트

2025.09.02

AdamW 특집: 왜 거의 모든 LLM이 이 옵티마이저를 쓰는가

2017년, 프라이부르크의 두 연구자가 Adam의 가중치 감쇠에 숨겨진 버그를 발견했다. 이 '수정'이 BERT, GPT-3, LLaMA 등 거의 모든 대규모 언어 모델 학습의 표준이 되기까지 — AdamW의 탄생, 수학적 원리, 그리고 현대 AI에서의 위상을 추적한다.

코어닷투데이22분