#옵티마이저
6개의 포스트

Shampoo 옵티마이저 특집: 행렬의 구조를 보는 사전조건화의 예술
Adam은 파라미터를 개별 숫자로 본다. Shampoo는 가중치 '행렬'의 행과 열 구조를 본다 — 크로네커 분해로 2차 정보를 효율적으로 포착하면서, 뉴턴법의 정밀함과 1차 방법의 효율성 사이 최적점을 찾는다. Google 프로덕션에 배치되고, AlgoPerf 대회에서 우승하고, SOAP과 Muon으로 진화한 이 옵티마이저의 전 이야기.

8-bit Adam 특집: 옵티마이저 메모리를 75% 줄인 블록별 양자화의 비밀
Adam 옵티마이저의 상태만 84GB — 모델보다 6배 크다. 2021년, Tim Dettmers는 옵티마이저 상태를 8비트로 압축해 75%를 절약하면서도 32비트와 동일한 학습 품질을 유지하는 방법을 발견했다. 블록별 양자화와 동적 트리 양자화의 원리를 파헤친다.

Sophia 옵티마이저 특집: 곡률을 보는 눈으로 Adam을 2배 앞서다
Adam은 기울기만 본다. Sophia는 '지형의 곡률'까지 본다 — 가파른 골짜기에서는 조심스럽게, 평평한 평원에서는 과감하게. 스탠퍼드 팀이 만든 이 2차 옵티마이저는 GPT-2 학습을 2배 빠르게 만들었다. 그리고 같은 팀이 스스로 그 주장을 재검증했다.

Lion 옵티마이저 특집: AI가 스스로 발견한 최적화 알고리즘
2023년, Google Brain의 AI가 수십만 개의 프로그램을 진화시켜 옵티마이저를 '발견'했다. 그 이름은 Lion — Adam보다 메모리를 절반만 쓰고, 확산 모델에서 2.3배 빠르며, Google 검색 광고에 배치된 최초의 'AI가 만든 AI 구성 요소'. 발견 과정, 알고리즘, 성능, 한계까지 깊이 파헤친다.

AdamW 특집: 왜 거의 모든 LLM이 이 옵티마이저를 쓰는가
2017년, 프라이부르크의 두 연구자가 Adam의 가중치 감쇠에 숨겨진 버그를 발견했다. 이 '수정'이 BERT, GPT-3, LLaMA 등 거의 모든 대규모 언어 모델 학습의 표준이 되기까지 — AdamW의 탄생, 수학적 원리, 그리고 현대 AI에서의 위상을 추적한다.

경사하강법의 모든 것: 공이 골짜기를 찾아가는 180년의 여정
1847년 코시가 '가장 가파른 내리막으로 걸어라'고 제안한 이래, 경사하강법은 모멘텀을 얻고, 적응적 학습률을 갖추고, AI가 스스로 발견하는 단계까지 진화했다. 손실 지형 위를 굴러가는 공의 180년 여정을 추적한다.