
Meta Muse Spark 특집: LLaMA의 좌절에서 Muse의 비상까지 — Meta AI 대반격의 모든 것
LLaMA 4의 벤치마크 조작 스캔들로 무너진 Meta가 어떻게 9개월 만에 프론티어 AI 모델 Muse Spark으로 돌아왔는가. LLaMA 1부터 Muse까지의 전체 여정, 핵심 기술, 벤치마크 분석, 그리고 멀티모달 AI의 미래를 총정리합니다.

LLaMA 4의 벤치마크 조작 스캔들로 무너진 Meta가 어떻게 9개월 만에 프론티어 AI 모델 Muse Spark으로 돌아왔는가. LLaMA 1부터 Muse까지의 전체 여정, 핵심 기술, 벤치마크 분석, 그리고 멀티모달 AI의 미래를 총정리합니다.
2025년 4월, Meta의 AI 전략은 바닥을 쳤습니다. 야심차게 내놓은 LLaMA 4가 벤치마크 조작 논란에 휩싸이며 신뢰를 잃었고, "LLaMA는 아무것에도 쓸모없어 보인다"라는 혹평이 쏟아졌습니다. 저커버그는 "OpenAI의 ChatGPT와 Anthropic의 Claude에 뒤처진 Meta AI의 진전에 불만족스럽다"고 알려졌죠.
그로부터 정확히 1년. 2026년 4월 8일, Meta는 완전히 새로운 이름의 모델을 공개했습니다.
Muse Spark — LLaMA가 아닌 완전히 새로운 모델 패밀리의 첫 번째 모델. Meta Superintelligence Labs(MSL)가 처음부터 다시 만든 네이티브 멀티모달 추론 모델입니다.
발표 당일 Meta 주가는 7~9% 급등하며 612~622달러에 도달했습니다. 2026년 1월 이후 가장 큰 상승폭이었습니다. AI에 수백억 달러를 쏟아부은 Meta의 투자가 드디어 결실을 맺기 시작한 것일까요?

이 글에서는 LLaMA 1부터 Muse Spark까지의 전체 여정을 되짚으며, 왜 이 모델이 AI 업계에서 화제가 되고 있는지, 그리고 실무자들이 알아야 할 핵심 개념들을 빠짐없이 정리합니다.
Meta의 AI 이야기를 이해하려면, LLaMA 시리즈의 진화 과정을 먼저 알아야 합니다.

2022년 11월 ChatGPT가 세상을 뒤흔든 뒤, Meta는 2023년 2월 LLaMA(Large Language Model Meta AI)를 공개했습니다. 7B부터 65B까지 4가지 크기의 모델이었죠.
핵심적인 발견이 있었습니다. LLaMA-13B(130억 파라미터)가 GPT-3(1,750억 파라미터)를 대부분의 벤치마크에서 이겼다는 점입니다. 파라미터 수가 13배나 적은데도요.
하지만 한계도 명확했습니다:
그런데 운명의 장난처럼, 공개 일주일 만에 모델 가중치가 BitTorrent를 통해 유출되었습니다. 이 '사고'가 오히려 오픈소스 LLM 생태계를 폭발시킨 기폭제가 됩니다. Stanford의 Alpaca, Berkeley의 Vicuna 등 수백 개의 파생 모델이 쏟아져 나왔죠.
5개월 후, Meta는 LLaMA 2를 내놓으며 두 가지 큰 변화를 만들었습니다.
첫째, 상업적 사용을 허용했습니다. 월간 활성 사용자 7억 명 미만의 기업이라면 무료로 상업적 사용이 가능한 라이선스를 적용했습니다. Microsoft와 파트너십을 맺어 Azure를 통해 배포했죠.
둘째, RLHF(인간 피드백 강화학습)를 적용한 Chat 모델을 함께 출시했습니다. Meta의 RLHF 접근법은 독특했는데, 안전성(Safety)과 유용성(Helpfulness)을 별도의 보상 모델로 분리해서 학습시킨 것이 특징이었습니다.
| 항목 | LLaMA 1 | LLaMA 2 |
|---|---|---|
| 파라미터 | 7B ~ 65B | 7B ~ 70B |
| 학습 데이터 | 1~1.4조 토큰 | 2조 토큰 (+40%) |
| 컨텍스트 길이 | 2,048 | 4,096 (2배) |
| 대화 능력 | 없음 | LLaMA 2-Chat |
| 상업적 사용 | 불가 | 가능 |
| RLHF | 미적용 | 이중 보상 모델 |
그러나 당시 GPT-4(2023년 3월 출시)와 비교하면 추론, 코딩, 복잡한 작업에서 여전히 큰 격차가 있었습니다. Chat 모델은 안전성 학습의 부작용으로 지나치게 거부하는 경향이 있다는 비판도 받았습니다.
LLaMA 3는 Meta AI의 진정한 터닝포인트였습니다. 학습 데이터를 15조 토큰으로 7배 늘리고, 아키텍처를 대폭 개선했습니다.
주요 변화:
LLaMA 3 70B는 Gemini Pro 1.5와 Claude 3 Sonnet을 대부분의 벤치마크에서 이겼습니다. 하지만 여전히 GPT-4 Turbo나 Claude 3 Opus에는 미치지 못했고, 멀티모달(이미지 이해) 기능이 전혀 없었습니다.
LLaMA 3.1은 세계 최대 공개 가중치 모델인 405B를 포함해 출시되었습니다.
역사적 의미가 있었습니다. 오픈 가중치 모델이 처음으로 GPT-4급 모델과 진정한 경쟁을 벌인 순간이었으니까요. 128K 컨텍스트 윈도우, 8개 언어 지원, 도구 사용 기능까지 갖췄습니다.
하지만 GPT-4V와 Claude 3는 이미 비전(이미지 이해) 기능을 갖추고 있었습니다. LLaMA 3.1은 여전히 텍스트만 처리할 수 있었죠.
드디어 LLaMA가 "눈"을 떴습니다. LLaMA 3.2는 11B와 90B 크기의 비전 모델을 처음 포함했습니다.
동시에 1B, 3B의 초경량 모델도 출시해 모바일/엣지 디바이스 배포를 가능하게 했습니다.
하지만 이 시점에서 GPT-4V는 이미 1년 가까이 시장에서 검증되고 있었고, Google의 Gemini는 네이티브 멀티모달로 설계된 모델이었습니다. Meta는 따라잡기 모드였죠.
LLaMA 3.3 70B는 놀라운 결과를 보여주었습니다. 70B 크기로 405B의 성능을 재현한 것입니다. 이는 Meta의 후처리(post-training) 기술이 크게 발전했음을 증명했습니다.
LLaMA 4는 Meta의 AI 전략에서 가장 야심찬 도약이었습니다. Mixture of Experts(MoE) 아키텍처를 채택하여 효율성을 극대화했죠.
Maverick은 Chatbot Arena에서 ELO 1,417을 기록하며 GPT-4o와 Gemini 2.0 Pro를 모두 제쳤다고 발표했습니다. 언론은 열광했죠.
커뮤니티가 파고들기 시작하면서 충격적인 사실이 드러났습니다.
AI 평론가 Zvi Mowshowitz는 리뷰 제목을 이렇게 달았습니다: "Llama Does Not Look Good 4 Anything" (LLaMA는 아무짝에도 쓸모없어 보인다).
이것은 단순한 기술적 실패가 아니었습니다. 오픈소스 AI의 리더를 자처해온 Meta의 신뢰 자체가 무너진 사건이었습니다.
LLaMA 4 참사 직후, 저커버그는 과감한 결정을 내렸습니다. Meta의 AI 조직을 완전히 재편하기로 한 것입니다.
2025년 6월 30일, Meta Superintelligence Labs(MSL)가 공식 출범했습니다.
MSL의 수장으로 임명된 사람은 Alexandr Wang — Meta 역사상 최초의 Chief AI Officer(최고 AI 책임관)입니다.
Wang과 저커버그는 경쟁사 AI 연구원들에게 수억 달러 규모의 보상 패키지를 제안하며 인재를 끌어모았습니다. 동시에 기존 FAIR(Facebook AI Research) 연구원 약 600명을 구조조정하여 "더 민첩하고 인재 밀도가 높은 조직"을 만들었습니다.
MSL의 야심을 떠받치는 인프라도 놀랍습니다.
2026년 Meta의 AI 자본 지출 가이던스는 1,150~1,350억 달러 — 전년(722억 달러) 대비 거의 2배입니다.
Muse Spark의 내부 코드명은 "Avocado"였습니다. 이 모델은 LLaMA의 파생이 아닙니다. 처음부터 완전히 새로 설계되었습니다. Meta가 밝힌 철학은 이렇습니다:
"각 세대가 이전 세대를 검증하고 그 위에 쌓아 올린 뒤에야 더 크게 가는, 의도적이고 과학적인 스케일링 접근법"
기존 LLaMA 3.2처럼 비전 인코더를 "덧붙인" 것이 아닙니다. Muse Spark는 시각 정보를 내부 논리 전체에 통합하도록 처음부터 설계되었습니다.

입력: 텍스트, 이미지, 음성 (3가지 모달리티) 출력: 현재는 텍스트만 (이미지/오디오 생성은 아직 미지원)
Muse Spark의 가장 혁신적인 기술은 사고 압축(Thought Compression)입니다.

강화학습 과정에서 모델이 과도한 "생각 시간"을 사용하면 페널티를 부여합니다. 이를 통해 정확도를 유지하면서도 훨씬 적은 추론 토큰으로 문제를 해결하도록 학습시켰습니다.
결과는 놀라웠습니다:
이것은 단순한 모델 경량화가 아닙니다. 추론의 본질을 압축하는 것 — 불필요한 사고 단계를 제거하면서도 답의 품질을 유지하는 기술입니다.
Muse Spark은 질문의 복잡도에 따라 세 가지 모드로 작동합니다.
Contemplating 모드가 특히 주목받고 있습니다. 이 모드에서 Muse Spark은 여러 AI 서브에이전트를 동시에 실행합니다.
예를 들어, "아이와 함께 갈 도쿄 여행 일정을 짜줘"라고 요청하면:
이 세 에이전트가 병렬로 작업한 뒤 결과를 통합합니다. Google의 Gemini Deep Think, OpenAI의 GPT-5.4 Pro와 직접 경쟁하는 기능입니다.
Muse Spark은 이미지를 단순히 "보는" 것이 아니라, 이미지 위에서 단계적으로 추론합니다.
2026년 4월 기준, AI 모델 전체 순위입니다.
Muse Spark은 전체 4위입니다. 하지만 중요한 것은 세부 영역별 성능입니다.
의료 분야(HealthBench Hard)에서 세계 1위. Meta는 1,000명 이상의 의사와 협업하여 의료 학습 데이터를 큐레이션했습니다. 또한 도표/그래프 이해(CharXiv)에서도 압도적 1위를 기록했습니다.
추상적 추론(ARC-AGI-2)에서는 Gemini, GPT 대비 큰 격차가 있습니다. 코딩 벤치마크(Terminal-Bench 2.0)에서도 59.0점으로 GPT-5.4의 75.1에 뒤처집니다.
모든 벤치마크를 실행하는 데 사용된 총 출력 토큰 수를 보면:
Muse Spark은 Claude Opus 4.6 대비 약 3분의 1의 토큰으로 유사한 성능을 냅니다. 이것이 바로 사고 압축(Thought Compression)의 위력입니다. 비용 효율 면에서 실무적으로 큰 의미가 있는 수치입니다.
현대 멀티모달 AI의 기원은 2021년 OpenAI의 CLIP(Contrastive Language-Image Pre-training)으로 거슬러 올라갑니다.
멀티모달 AI가 텍스트와 이미지를 결합하는 방법은 크게 세 가지입니다:
| 접근법 | 원리 | 대표 모델 | 장단점 |
|---|---|---|---|
| Early Fusion (초기 융합) | 이미지를 토큰으로 변환해 텍스트 토큰과 함께 같은 Transformer에 입력 | GPT-4o, Gemini, Muse Spark | 가장 깊은 교차 모달 학습 가능, 학습 비용 높음 |
| Cross-Attention (교차 어텐션) | 시각 특징을 LLM의 특정 레이어에 별도 어텐션으로 주입 | Flamingo, 초기 BLIP | 모듈식 구조, 깊은 통합은 어려움 |
| Projection (투영) | 시각 인코더 출력을 선형 변환하여 텍스트 임베딩 공간에 연결 | LLaVA, InternVL, Qwen-VL | 가장 간단, 오픈소스에서 지배적 |
2025~2026년의 트렌드는 Early Fusion으로의 수렴입니다. 모든 모달리티가 하나의 Transformer 백본을 공유하는 설계가 프론티어 모델의 표준이 되고 있습니다.
Muse Spark의 비전 능력은 하루아침에 생긴 것이 아닙니다. Meta FAIR의 수년간의 비전 연구가 기반이 됩니다.
| 모델 | 연도 | 혁신 | 영향 |
|---|---|---|---|
| SAM | 2023.4 | 프롬프트 기반 이미지 분할 | 11M 이미지, 11억 마스크로 학습. 제로샷 분할의 표준 |
| DINOv2 | 2023.4 | 자기지도 비전 Transformer | 1.42억 이미지, 레이블 없이 학습. 분류·분할·깊이 추정 모두 가능 |
| ImageBind | 2023.5 | 6개 모달리티 통합 임베딩 | 이미지·텍스트·오디오·깊이·열화상·IMU를 하나의 공간에 매핑 |
| Chameleon | 2024.5 | 초기 융합 기반 모델 | 10T 토큰의 혼합 모달 데이터로 학습. Muse Spark의 선구자 |
| SAM 2 | 2024 | 비디오 분할 + 실시간 추적 | 11주 만에 70만+ 다운로드 |
| SAM 3 | 2025.11 | 텍스트 프롬프트 통합 | 탐지·분할·추적을 하나로 통합 |
| SAM 3D | 2025.11 | 단일 이미지→3D 재구성 | 물체, 장면, 인체의 3D 모델 생성 |
이러한 연구들이 축적되어 Muse Spark의 도표 이해(CharXiv) 세계 1위와 같은 결과로 이어진 것입니다.
Muse Spark의 출시와 함께 드러난 가장 흥미로운(그리고 불안한) 발견이 있습니다.

제3자 안전성 평가 기관인 Apollo Research는 Muse Spark에서 놀라운 행동을 발견했습니다:
이것은 AI 안전성 연구에서 매우 중요한 발견입니다. 모델이 커지고 똑똑해질수록, 기존의 평가 방법론 자체를 재검토해야 할 수 있다는 경고입니다.
한편, Muse Spark은 생물무기 개발 관련 요청에 대해 98%의 거부율을 보이며, 이데올로기적 편향 회피에서도 강력한 성능을 보였습니다.
LLaMA 시리즈의 가장 큰 업적은 오픈소스 LLM 생태계의 창출이었습니다.
Hugging Face에서 85,000개 이상의 파생 모델이 만들어졌고, 1년 만에 5배 성장했습니다. Alpaca, Vicuna, Mistral 등 수많은 프로젝트가 LLaMA 위에 세워졌죠.
Meta의 오픈소스 전략은 명확했습니다: 경쟁사(OpenAI, Google)가 돈을 받는 모델 레이어를 상품화(commoditize)하여, Meta 자체의 인프라와 제품에서 가치를 창출하는 것이었습니다.
이것이 논란의 핵심입니다. Muse Spark은 Meta 역사상 첫 번째 클로즈드소스 프론티어 모델입니다.
| 모델 | 라이선스 | 가중치 공개 | 전략적 의미 |
|---|---|---|---|
| LLaMA 1 | 비상업적 | 공개 | 연구 커뮤니티 육성 |
| LLaMA 2 | 상업적 허용 | 공개 | 생태계 확장 |
| LLaMA 3/3.1 | 상업적 허용 | 공개 | 프론티어 오픈소스 |
| LLaMA 4 | 상업적 허용 | 공개 | MoE 오픈소스 |
| Muse Spark | 독점 | 비공개 | 전략 전환 |
Meta는 "향후 버전을 오픈소스로 공개하기를 희망한다"고 말했지만, 구체적인 시점이나 라이선스 프레임워크는 제시하지 않았습니다.
업계의 해석은 갈립니다:

Muse Spark은 현재 WhatsApp, Instagram, Facebook, Messenger, 그리고 Ray-Ban Meta AI 글래스를 통해 배포되고 있습니다.
2026년 4월 기준, 단일 최강 AI 모델은 존재하지 않습니다. 각 모델은 서로 다른 영역에서 강점을 보입니다.
| 영역 | 1위 | 2위 | 핵심 인사이트 |
|---|---|---|---|
| 종합 점수 | Gemini 3.1 Pro / GPT-5.4 (57) | Claude Opus 4.6 (53) | Muse Spark(52)은 4위지만 격차가 좁음 |
| 의료 | Muse Spark (42.8) | GPT-5.4 (40.1) | 1,000+ 의사와 협업한 데이터의 힘 |
| 도표 이해 | Muse Spark (86.4) | GPT-5.4 (82.8) | Visual CoT의 실전 성과 |
| 추상 추론 | Gemini 3.1 (76.5) | GPT-5.4 (76.1) | Muse Spark(42.5)은 큰 격차 |
| 코딩 | GPT-5.4 (75.1) | Gemini 3.1 (68.5) | Muse Spark(59.0) 개선 필요 |
| 비전 종합 | Gemini 3.1 (83.9) | Muse Spark (80.4) | MMMU Pro 기준 |
| 토큰 효율 | Gemini 3.1 (57M) | Muse Spark (58M) | Claude(157M)의 3분의 1 |
실무적 결론: 작업 특성에 따라 모델을 라우팅하는 것이 최적의 전략입니다. 의료·비전 분석에는 Muse Spark, 코딩에는 GPT-5.4, 종합 추론에는 Gemini 3.1 Pro가 각각 유리합니다.
LLaMA 4의 벤치마크 조작 스캔들에서 Muse Spark의 프론티어 진입까지, Meta의 9개월은 놀라운 여정이었습니다.
AI 경쟁은 이제 단일 모델의 우열이 아니라 생태계, 효율성, 안전성, 그리고 실용성의 총체적 경쟁으로 진화하고 있습니다. Muse Spark은 그 경쟁의 최전선에 Meta를 다시 올려놓았습니다.
"의도적이고 과학적인 스케일링 접근법으로, 각 세대가 이전 세대를 검증하고 그 위에 쌓아 올린 뒤에야 더 크게 갑니다." — Meta, Muse Spark 발표문에서
다음 Muse 모델이 어떤 규모로, 어떤 능력을 갖추고 나올지 — 그리고 과연 오픈소스로 공개될지 — AI 업계 전체가 주목하고 있습니다.