#MoE
4개의 포스트

로컬 AI는 '열등한 Opus'가 아니다: 내 컴퓨터 속 모델은 완전히 다른 연장이다
1만 2천 달러짜리 GPU를 사서 자기 사무실에 AI를 들인 한 엔지니어가 던진 한 문장이 화제가 됐다. '로컬 Qwen은 더 싼 Opus가 아니라, 아예 다른 연장이다.' 대장장이가 칼을 담금질하듯 한순간도 눈을 뗄 수 없는 이 모델은 왜 어떤 일에서는 무너지고 어떤 일에서는 클라우드를 압도할까. 오픈웨이트 AI의 역사부터 트랜스포머·MoE·양자화·투기적 디코딩 같은 핵심 아키텍처, 벤치마크의 함정, 그리고 2026년 데이터 주권의 시대에 로컬 모델이 차지하는 진짜 자리까지 — 쉽고 자세하게 풀어본다.

박사 학위로도 부족하다: 어느 DeepMind 연구자의 면접 가이드가 드러낸 'AI 실력의 지도'
옥스퍼드 박사에 1저자 논문이 여러 편, 그런데도 그녀는 LeetCode 150문제를 풀고 FlashAttention을 맨손으로 구현했다. DeepMind에 합격한 Silvia Sapora의 면접 가이드가 화제가 된 건 '준비법' 때문만이 아니다. 그 글에 담긴 공부 목록이 곧 2026년 현대 AI의 전체 지도였기 때문이다. 면접의 역사부터 어텐션·디퓨전·정렬·분산학습의 핵심 개념까지, 쉽고 자세하게 풀어본다.

DeepSeek V4 Pro 특집: 1.6조 파라미터로 100만 토큰을 V3.2의 1/10 비용에 — 오픈소스가 다시 프론티어를 따라잡은 날
2026년 4월 24일, DeepSeek이 V4 Pro와 V4 Flash를 공개했다. 1.6조 파라미터(49B 활성), 100만 토큰 컨텍스트, 그리고 V3.2 대비 KV 캐시 10%·FLOPs 27%. 단순한 버전업이 아니라 'CSA + HCA 하이브리드 어텐션', 'mHC 잔차 연결의 후속', 'Muon 옵티마이저', 'FP4+FP8 혼합 정밀도', '온-폴리시 디스틸레이션'이라는 다섯 가지 핵심 혁신이 한꺼번에 들어갔다. 왜 이런 설계가 필요했는지, 어디서부터 어떻게 여기까지 왔는지, 그리고 실무에서 어떻게 써야 하는지를 처음부터 풀어본다.

Mixture of Experts 완전 해부: 1.8조 파라미터인데 왜 빠른가
GPT-4는 1.8조 파라미터지만 추론 시 222B만 활성화된다. 어떻게 가능한가? 1991년 MIT에서 시작된 '전문가 혼합' 아이디어가 34년 뒤 모든 프론티어 AI 모델의 핵심 아키텍처가 되기까지 — Expert의 정체, 라우팅의 작동 원리, 실전 사례와 논란까지 완전 해부한다.