1개의 포스트
2017년, 프라이부르크의 두 연구자가 Adam의 가중치 감쇠에 숨겨진 버그를 발견했다. 이 '수정'이 BERT, GPT-3, LLaMA 등 거의 모든 대규모 언어 모델 학습의 표준이 되기까지 — AdamW의 탄생, 수학적 원리, 그리고 현대 AI에서의 위상을 추적한다.