MoEMixture of Experts트랜스포머GPT-4MixtralDeepSeek

Mixture of Experts 완전 해부: 1.8조 파라미터인데 왜 빠른가

GPT-4는 1.8조 파라미터지만 추론 시 222B만 활성화된다. 어떻게 가능한가? 1991년 MIT에서 시작된 '전문가 혼합' 아이디어가 34년 뒤 모든 프론티어 AI 모델의 핵심 아키텍처가 되기까지 — Expert의 정체, 라우팅의 작동 원리, 실전 사례와 논란까지 완전 해부한다.

코어닷투데이2025-07-1529분

들어가며: 종합병원의 비밀

병원 접수처 로봇(라우터)이 환자들을 심장·뇌·뼈 전문 진료실(Expert)로 안내하는 모습

종합병원에 간다고 상상해 보자. 접수처에서 증상을 말하면, 접수 담당자가 적절한 전문의에게 안내한다. 두통이면 신경과, 흉통이면 심장내과. 병원에 100명의 의사가 있지만, 환자 한 명을 보는 의사는 1~2명이다.

이것이 바로 Mixture of Experts(MoE) 의 핵심 아이디어다.

전통적 신경망(Dense 모델)은 모든 뉴런이 모든 입력을 처리한다. 마치 모든 의사가 모든 환자를 동시에 진찰하는 것과 같다 — 비효율의 극치.

MoE는 다르다. 여러 개의 "전문가(Expert)" 네트워크를 두고, 라우터(Router) 가 각 입력을 가장 적합한 소수의 전문가에게만 보낸다. 나머지 전문가는 쉬고 있다. 전체 모델은 거대하지만, 실제로 작동하는 부분은 작다.

GPT-4가 1.8조 파라미터라는 소문이 있다. 그런데 추론 시에는 222B만 활성화된다. 70B 모델보다 훨씬 뛰어난 성능을, 70B 수준의 추론 비용으로 달성한다. 이것이 MoE의 마법이다.

1부: "Expert"란 정확히 무엇인가?

생각보다 단순하다

MoE에서 "Expert"라는 이름이 거창하게 들리지만, 실체는 놀랍도록 단순하다:

Expert = 그냥 피드포워드 신경망(FFN) 하나.

트랜스포머의 각 블록은 셀프 어텐션 + FFN으로 구성된다. Dense 모델에서는 FFN이 1개다. MoE에서는 이 FFN을 여러 개 복제하고, 각각을 "Expert"라 부르는 것이다. 어텐션 층은 그대로 공유한다.

Dense 트랜스포머 블록

→

셀프 어텐션 (공유) + FFN 1개

↓

MoE 트랜스포머 블록

→

셀프 어텐션 (공유) + FFN N개 + 라우터

비유로 정리하면

Dense 모델	MoE 모델
모든 의사가 모든 환자를 본다	접수처(라우터) 가 전문의(Expert) 에게 배정
의사 1명이 모든 것을 안다	각 의사가 특정 분야를 잘한다
환자가 많으면 모든 의사가 바쁘다	담당 의사만 바쁘고, 나머지는 쉰다
병원 규모 = 진료 비용	병원 규모 ≠ 진료 비용 (일부만 가동)

"8x7B"는 무슨 뜻인가?

Mixtral 8x7B라는 이름 때문에 "7B 모델 8개를 합친 56B"라고 오해하기 쉽다. 아니다:

어텐션 층은 1개 (공유)
FFN만 8개로 복제 — 각 FFN이 약 7B의 파라미터
총 파라미터: 46.7B (56B가 아님)
토큰당 활성 파라미터: 12.9B (8개 중 2개만 활성)

2부: 라우터 — 누가 어느 전문가에게 갈지 정하는 법

라우팅의 수학

라우터는 놀랍도록 단순한 구조다 — 작은 선형 변환 + softmax:

G(x) = Softmax(x · W_g)

입력 토큰의 숨겨진 상태(hidden state) x에 가중치 행렬 W_g를 곱하면, 각 전문가에 대한 확률 점수가 나온다. 가장 높은 점수의 전문가 k개를 선택한다.

입력 토큰의 hidden state

↓

선형 변환: x · W_g → 전문가별 점수

↓

Top-k 선택 (예: k=2이면 상위 2개 전문가)

↓

선택된 전문가들의 출력을 가중 합산

Top-1 vs Top-2 라우팅

방식	모델 예시	장점	단점
Top-1	Switch Transformer	계산·통신 비용 최소	전문가 하나에 의존
Top-2	Mixtral, GPT-4, DeepSeek	더 풍부한 표현	2배 계산
Top-9	DeepSeek-V3 (256개 중 9개)	초미세 전문가 조합	라우팅 복잡

3부: 34년의 역사 — 1991년 MIT에서 2025년 Llama 4까지

MoE 진화의 타임라인: 1991년 작은 집 → 2017년 건물 → 2023년 마천루 → 2025년 미래 도시

1991: 시작 — 적응적 전문가 혼합

최초의 MoE 논문

Jacobs, Jordan, Nowlan & Hinton (1991)
"Adaptive Mixtures of Local Experts"
Neural Computation, Vol. 3, No. 1, pp. 79-87

MIT(Jacobs, Jordan) + 토론토 대학(Nowlan, Hinton)

모음 판별 과제에서 전문가들이 자연스럽게 하위 과제를 분담, 일반 모델보다 절반의 에폭으로 목표 달성

1994년에는 조던과 제이콥스가 이를 트리 구조의 계층적 MoE(Hierarchical MoE) 로 확장했다.

하지만 1991년의 하드웨어로는 대규모 MoE를 실행할 수 없었다. 이 아이디어는 26년간 잠들어 있었다.

2017: 부활 — "터무니없이 거대한 신경망"

MoE의 부활

Shazeer, Mirhoseini, ..., Hinton, Dean (2017)
"Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer"
ICLR 2017

1,370억 파라미터, 최대 4,096개 전문가, Top-4 라우팅
1B Word Benchmark에서 동등 계산 기준 퍼플렉시티 24% 감소
모델 용량 1,000배 이상 확장, 계산 효율성은 거의 유지

공저자에 1991년 원조 Hinton + Google의 Jeff Dean — 26년 만의 귀환

논문 제목이 "Outrageously Large(터무니없이 거대한)"인 이유: 2017년에 1,370억 파라미터는 정말 터무니없는 규모였다. 그것을 실용적으로 만든 것이 희소 라우팅이었다.

2021: Switch Transformer — 단순화의 극치

페두스, 조프, 샤지어(Google, 2021) 의 Switch Transformer는 라우팅을 Top-k에서 Top-1으로 단순화했다. 토큰 하나가 전문가 하나에만 간다.

결과: 1.6조 파라미터 모델(2,048개 전문가), T5-Base 대비 7배 빠른 사전학습.

2023~2025: 프론티어 모델의 핵심이 되다

주요 MoE 모델 연대기

GPT-4

2023.3 | ~1.8T total, ~222B active, 16 experts (추정)

Mixtral

2023.12 | 46.7B total, 12.9B active, 8 experts

Grok-1

2024.3 | 314B total, ~79B active, 8 experts

DBRX

2024.3 | 132B total, 36B active, 16 experts

DeepSeek-V2

2024.5 | 236B total, 21B active, 160+2 shared

DeepSeek-V3

2024.12 | 671B total, 37B active, 256+1 shared

Llama 4

2025.4 | Scout 109B/17B active, Maverick 400B/17B active

4부: Dense vs. MoE — 언제 누가 이기는가

왼쪽: 혼자 모든 일을 하는 지친 만능 로봇(Dense) / 오른쪽: 코디네이터가 전문가 팀을 지휘하는 효율적 시스템(MoE)

MoE가 이기는 곳

MoE의 강점

추론 처리량 활성 파라미터만 계산 8x MoE(2/8 활성) ≈ 전체의 ~50% 비용

학습 효율 FLOP당 더 많은 용량 GLaM: GPT-3 품질을 1/3 에너지로

확장성 전문가 + GPU 추가 토큰당 계산 증가 없이 용량 확장

프리필 단계 연산량 지배적 긴 프롬프트 처리에서 MoE 유리

Dense가 이기는 곳

소규모 배치 디코딩: 배치 크기가 ~300 이하면, 메모리 대역폭이 병목 → 활성 파라미터 수의 이점이 사라짐
메모리 요구량: 모든 전문가가 GPU에 로드되어야 함. 671B MoE = 671B Dense와 같은 VRAM 필요
단순성: 라우팅, 부하 분산, 전문가 붕괴 관리가 불필요
긴 컨텍스트 어텐션: 어텐션이 계산을 지배하는 영역에서 MoE의 이점 제한적

핵심 차이 요약

속성	Dense 70B	MoE 8x7B (Mixtral)
총 파라미터	70B	46.7B
활성 파라미터	70B (전부)	12.9B (2/8)
추론 FLOP	높음	낮음 (Dense의 ~18%)
VRAM 필요	~140 GB	~93 GB (전체 로드 필요)
성능	기준	비슷하거나 우수
추론 속도	기준	~6배 빠름

Mixtral 8x7B가 Llama 2 70B를 대부분의 벤치마크에서 능가하면서, 추론은 6배 빠르다 — 이것이 MoE의 실전적 가치다.

5부: MoE의 아킬레스건 — 전문가 붕괴와 부하 분산

전문가 붕괴(Expert Collapse)

MoE의 가장 위험한 실패 모드: 라우터가 소수의 전문가에게만 토큰을 몰아보내는 것.

전문가 A가 약간 더 좋은 성능

↓

라우터가 A에 더 많은 토큰 배정

↓

A가 더 많은 데이터로 학습 → 더 좋아짐

↓

악순환: A만 계속 선택, 나머지 전문가 방치 → 붕괴

이것은 "부익부 빈익빈"의 전형이다. 한번 시작되면 자기 강화적이어서 복구가 어렵다.

해결 시도들의 역사

시기	방법	아이디어	한계
2017	노이지 게이팅 (Shazeer)	softmax 전에 가우시안 노이즈 추가	노이즈 크기 튜닝 어려움
2021	보조 손실 (Switch Transformer)	부하 균형을 위한 추가 손실 항	품질 vs 균형 트레이드오프
2022	Router Z-loss (ST-MoE)	softmax 로짓 크기 제한	여전히 손실 간섭 존재
2024	보조 손실 없는 균형 (DeepSeek-V3)	라우팅에 바이어스 항 추가, 역전파에 미포함	최초의 품질 무손실 균형

DeepSeek-V3의 혁신은 결정적이었다. 과부하된 전문가의 바이어스를 낮추고, 한가한 전문가의 바이어스를 높여 — 기울기 계산에는 영향을 주지 않으면서 라우팅만 조정한다. 품질과 균형의 트레이드오프를 최초로 해소했다.

6부: 사례 연구 — 성공과 논란

사례 1: Mixtral — 오픈소스의 게임 체인저 (2023.12)

Mistral AI가 2023년 12월 공개한 Mixtral 8x7B는 MoE의 실전적 가치를 처음으로 대중에게 증명했다:

Apache 2.0 라이선스 — 완전 오픈소스
Llama 2 70B를 대부분 벤치마크에서 능가
GPT-3.5에 필적하는 성능
추론 비용은 Llama 2 70B의 1/6
5개 언어 지원 (영·프·이·독·스)

이후 수천 개의 커뮤니티 파인튜닝 모델이 Hugging Face에 등장했다. MoE가 "프론티어 랩만의 기술"에서 "누구나 쓸 수 있는 기술" 로 전환된 순간이었다.

사례 2: DeepSeek-V3의 $560만 논란 (2024.12)

DeepSeek이 671B/37B active 모델을 $560만에 학습했다고 발표하면서 업계가 충격에 빠졌다.

DeepSeek-V3 비용 논란

DeepSeek 주장: H800 GPU 2,048대, 278만 GPU-시간, $2/GPU-시간 = $560만

독립 분석 (SemiAnalysis):
• 이 수치는 1회 성공적 학습의 GPU 비용만 포함
• R&D, 실패한 실험, 인프라 비용 미포함
• DeepSeek은 H800 ~10,000대 + H100 ~10,000대 보유 추정
• 총 투자 추정: $13~16억 (서버 CapEx + 운영비 + 전체 R&D 포함)

교훈: 단일 학습 비용 ≠ 전체 개발 비용. 하지만 MoE의 효율성 덕분에 Dense 대비 계산량이 크게 줄어든 것은 사실

DeepSeek-V3의 기술적 혁신은 진짜였다:

보조 손실 없는 부하 균형 — MoE의 오래된 문제 해결
FP8 혼합 정밀도 학습 — 이 규모에서 최초 검증
멀티 토큰 예측 — 다음 토큰 너머를 예측해 학습 밀도 증가

사례 3: Llama 4 벤치마크 논란 (2025.4)

Meta가 2025년 4월 Llama 4를 출시하며 발생한 논란은 MoE 모델 평가의 어려움을 보여주었다.

Llama 4 벤치마크 논란의 전말

Meta의 행동: LMSys Chatbot Arena에 공개 모델이 아닌 "Llama-4-Maverick-03-26-Experimental"이라는 비공개 변형을 제출. 인간 선호도 최적화된 특수 버전.

초기 결과: ELO 1,417로 GPT-4o, Gemini 2.0 Pro를 제치고 상위권

발각 후: 실제 공개 모델로 평가하자 Maverick은 32위로 추락, Scout는 100위 밖

"The Leaderboard Illusion" 논문: Meta가 사전에 27개의 비공개 변형을 테스트한 뒤 최고 성능만 제출한 것이 밝혀짐

실제 성능: Maverick의 aider 코딩 벤치마크 점수 = 16% (DeepSeek V3, Claude 3.7 Sonnet에 크게 열세)

7부: DeepSeek의 혁신 — 미세 전문가와 공유 전문가

DeepSeek은 MoE 아키텍처에 두 가지 결정적 혁신을 도입했다:

미세 전문가 분할 (Fine-Grained Expert Segmentation)

기존: 8개의 큰 전문가 중 2개 선택 → 조합 수 = C(8,2) = 28가지

DeepSeek: 256개의 작은 전문가 중 9개 선택 → 조합 수 = C(256,9) = 약 140조 가지

더 많은 작은 전문가로 더 유연한 조합이 가능해져, 입력마다 정밀하게 최적화된 전문가 조합을 구성한다.

공유 전문가 격리 (Shared Expert Isolation)

DeepSeek의 공유 전문가 개념

공유 전문가 (1~2개) 항상 활성 모든 토큰에 공통된 지식 처리 (문법, 기본 의미 등)

라우팅 전문가 (256개) 선택적 활성 (9개) 토큰별 특화 지식 (수학, 코드, 언어별 등)

공유 전문가가 공통 지식을 담당하므로, 라우팅 전문가들 사이의 중복이 줄어든다. 각 라우팅 전문가가 더 뚜렷한 전문성을 갖게 된다.

8부: 최신 트렌드 — MoE는 어디로 가고 있는가

트렌드 1: 전문가 수의 폭증

모델	연도	전문가 수
Mixtral	2023	8
DBRX	2024	16
Llama 4 Scout	2025	16
Llama 4 Maverick	2025	128
DeepSeek-V3	2024	256 + 1 shared

더 많은 작은 전문가 → 더 정밀한 라우팅 → 더 효율적 계산. 연구는 "지수적 표현력 분리"가 세분화와 함께 증가함을 보였다.

트렌드 2: 어텐션에도 MoE를

SwitchHead (Csordás et al., NeurIPS 2024): FFN뿐 아니라 어텐션 헤드에도 MoE를 적용. 어텐션 행렬을 최대 8배 적게 계산하면서 기준 성능 유지. "SwitchAll"은 FFN + 어텐션 모두 MoE로 — 완전 MoE 트랜스포머의 시작.

트렌드 3: MoE가 기본이 되다

2025년 현재, 모든 프론티어 랩이 MoE를 출시했다:

2025년 MoE 채택 현황

OpenAI GPT-4 (추정) 16 experts

Google Switch, Gemini MoE 기반

Meta Llama 4 16-128 experts

Mistral Mixtral 8 experts, 오픈소스

DeepSeek V2/V3/R1 160-256 experts

xAI Grok MoE, ~3T+

MoE는 더 이상 "대안 아키텍처"가 아니다. 기본 아키텍처가 되었다.

맺으며: 전문가 한 명이 전부를 아는 것보다

1991년, MIT의 로버트 제이콥스와 마이클 조던은 간단한 관찰에서 출발했다: 하나의 네트워크가 모든 것을 배우는 것보다, 여러 전문가가 각자의 분야를 맡는 것이 효율적이다.

34년이 지난 2025년, 이 아이디어는 인류가 만든 가장 강력한 AI 모델들의 핵심이 되었다. GPT-4의 1.8조 파라미터가 70B 수준의 비용으로 작동하고, DeepSeek-V3의 671B가 37B의 계산으로 추론하고, Mixtral이 1/6의 비용으로 70B 모델을 능가하는 것 — 이 모든 것이 MoE 덕분이다.

MoE가 가르쳐 주는 교훈은 인간 사회의 원리와 동일하다:

모든 것을 아는 한 명의 제너럴리스트보다, 각자의 전문성을 가진 팀이 더 강하다. 단, 누가 어떤 일을 맡을지 잘 정하는 코디네이터가 있어야 한다.

종합병원의 접수처처럼, MoE의 라우터는 각 환자(토큰)를 적절한 전문의(Expert)에게 안내한다. 그리고 대부분의 전문의는 쉬고 있다 — 이것이 효율의 비밀이다.

기술2026.03.24