1개의 포스트
Adam은 파라미터를 개별 숫자로 본다. Shampoo는 가중치 '행렬'의 행과 열 구조를 본다 — 크로네커 분해로 2차 정보를 효율적으로 포착하면서, 뉴턴법의 정밀함과 1차 방법의 효율성 사이 최적점을 찾는다. Google 프로덕션에 배치되고, AlgoPerf 대회에서 우승하고, SOAP과 Muon으로 진화한 이 옵티마이저의 전 이야기.