#Adam

2개의 포스트

2025.09.02

AdamW 특집: 왜 거의 모든 LLM이 이 옵티마이저를 쓰는가

2017년, 프라이부르크의 두 연구자가 Adam의 가중치 감쇠에 숨겨진 버그를 발견했다. 이 '수정'이 BERT, GPT-3, LLaMA 등 거의 모든 대규모 언어 모델 학습의 표준이 되기까지 — AdamW의 탄생, 수학적 원리, 그리고 현대 AI에서의 위상을 추적한다.

코어닷투데이22분

기술경사하강법옵티마이저

2025.06.10

경사하강법의 모든 것: 공이 골짜기를 찾아가는 180년의 여정

1847년 코시가 '가장 가파른 내리막으로 걸어라'고 제안한 이래, 경사하강법은 모멘텀을 얻고, 적응적 학습률을 갖추고, AI가 스스로 발견하는 단계까지 진화했다. 손실 지형 위를 굴러가는 공의 180년 여정을 추적한다.

코어닷투데이24분