블로그로 돌아가기

#Muon
2개의 포스트

인사이트DeepSeek-V4V4 Pro
2026.04.27DeepSeek V4 Pro 특집: 1.6조 파라미터로 100만 토큰을 V3.2의 1/10 비용에 — 오픈소스가 다시 프론티어를 따라잡은 날
2026년 4월 24일, DeepSeek이 V4 Pro와 V4 Flash를 공개했다. 1.6조 파라미터(49B 활성), 100만 토큰 컨텍스트, 그리고 V3.2 대비 KV 캐시 10%·FLOPs 27%. 단순한 버전업이 아니라 'CSA + HCA 하이브리드 어텐션', 'mHC 잔차 연결의 후속', 'Muon 옵티마이저', 'FP4+FP8 혼합 정밀도', '온-폴리시 디스틸레이션'이라는 다섯 가지 핵심 혁신이 한꺼번에 들어갔다. 왜 이런 설계가 필요했는지, 어디서부터 어떻게 여기까지 왔는지, 그리고 실무에서 어떻게 써야 하는지를 처음부터 풀어본다.
코어닷투데이55분

기술Shampoo옵티마이저
2025.12.10Shampoo 옵티마이저 특집: 행렬의 구조를 보는 사전조건화의 예술
Adam은 파라미터를 개별 숫자로 본다. Shampoo는 가중치 '행렬'의 행과 열 구조를 본다 — 크로네커 분해로 2차 정보를 효율적으로 포착하면서, 뉴턴법의 정밀함과 1차 방법의 효율성 사이 최적점을 찾는다. Google 프로덕션에 배치되고, AlgoPerf 대회에서 우승하고, SOAP과 Muon으로 진화한 이 옵티마이저의 전 이야기.
코어닷투데이24분