블로그로 돌아가기

#MoE
2개의 포스트

인사이트DeepSeek-V4V4 Pro
2026.04.27DeepSeek V4 Pro 특집: 1.6조 파라미터로 100만 토큰을 V3.2의 1/10 비용에 — 오픈소스가 다시 프론티어를 따라잡은 날
2026년 4월 24일, DeepSeek이 V4 Pro와 V4 Flash를 공개했다. 1.6조 파라미터(49B 활성), 100만 토큰 컨텍스트, 그리고 V3.2 대비 KV 캐시 10%·FLOPs 27%. 단순한 버전업이 아니라 'CSA + HCA 하이브리드 어텐션', 'mHC 잔차 연결의 후속', 'Muon 옵티마이저', 'FP4+FP8 혼합 정밀도', '온-폴리시 디스틸레이션'이라는 다섯 가지 핵심 혁신이 한꺼번에 들어갔다. 왜 이런 설계가 필요했는지, 어디서부터 어떻게 여기까지 왔는지, 그리고 실무에서 어떻게 써야 하는지를 처음부터 풀어본다.
코어닷투데이55분

기술MoEMixture of Experts
2025.07.15Mixture of Experts 완전 해부: 1.8조 파라미터인데 왜 빠른가
GPT-4는 1.8조 파라미터지만 추론 시 222B만 활성화된다. 어떻게 가능한가? 1991년 MIT에서 시작된 '전문가 혼합' 아이디어가 34년 뒤 모든 프론티어 AI 모델의 핵심 아키텍처가 되기까지 — Expert의 정체, 라우팅의 작동 원리, 실전 사례와 논란까지 완전 해부한다.
코어닷투데이29분