#Learning Rate

1개의 포스트

딥러닝에서 가장 중요한 하이퍼파라미터, 학습률. 1951년 Robbins-Monro의 수렴 조건에서 시작해, AlexNet의 계단식 감소, 코사인 어닐링, 워밍업, 그리고 GPT가 사용하는 현대적 스케줄까지 — 75년의 역사를 논문과 사례로 추적한다.