블로그로 돌아가기

#AdamW
2개의 포스트

기술Learning RateCosine Schedule
2025.11.15Learning Rate Schedule의 역사: 1951년 수학 정리에서 GPT의 코사인 스케줄까지
딥러닝에서 가장 중요한 하이퍼파라미터, 학습률. 1951년 Robbins-Monro의 수렴 조건에서 시작해, AlexNet의 계단식 감소, 코사인 어닐링, 워밍업, 그리고 GPT가 사용하는 현대적 스케줄까지 — 75년의 역사를 논문과 사례로 추적한다.
코어닷투데이38분

기술AdamW옵티마이저
2025.09.02AdamW 특집: 왜 거의 모든 LLM이 이 옵티마이저를 쓰는가
2017년, 프라이부르크의 두 연구자가 Adam의 가중치 감쇠에 숨겨진 버그를 발견했다. 이 '수정'이 BERT, GPT-3, LLaMA 등 거의 모든 대규모 언어 모델 학습의 표준이 되기까지 — AdamW의 탄생, 수학적 원리, 그리고 현대 AI에서의 위상을 추적한다.
코어닷투데이22분