#2차 최적화

1개의 포스트

Adam은 기울기만 본다. Sophia는 '지형의 곡률'까지 본다 — 가파른 골짜기에서는 조심스럽게, 평평한 평원에서는 과감하게. 스탠퍼드 팀이 만든 이 2차 옵티마이저는 GPT-2 학습을 2배 빠르게 만들었다. 그리고 같은 팀이 스스로 그 주장을 재검증했다.