AI 칩GPUTPUTrainiumGroqMTIANVIDIAAI 반도체

AI 칩 전쟁 2026 — NVIDIA 독주 속 TPU v7, Trainium 3, Groq, MTIA의 도전

NVIDIA가 매출 2,159억 달러로 AI 칩 시장의 80%를 지배하는 가운데, Google TPU v7, AWS Trainium 3, Groq LPU, Meta MTIA가 도전장을 내밀었다. AI 반도체 전쟁의 역사, 현재, 그리고 미래를 완전 정리한다.

코어닷투데이2026-01-0733분

들어가며

2026년 3월 현재, 세계에서 가장 가치 있는 기업은 NVIDIA다. 시가총액 3조 달러를 넘어선 이 회사의 핵심 제품은 무게 35kg짜리 서버 보드다. 이 보드 하나의 가격이 웬만한 아파트 한 채 값이다.

NVIDIA의 FY2026(2026년 1월 마감) 매출은 2,159억 달러. 불과 3년 전인 FY2023의 270억 달러에서 8배 성장했다. 데이터센터 사업부 매출만 Q4 한 분기에 623억 달러 — 분기 매출이 3년 전 연간 매출의 두 배를 넘긴다.

하지만 이 압도적 독점에 균열이 생기고 있다. 구글, 아마존, 메타, 마이크로소프트 — NVIDIA의 가장 큰 고객들이 동시에 NVIDIA의 가장 큰 경쟁자가 되고 있다. 자체 AI 칩을 만들기 시작한 것이다.

AI 칩 전쟁 아레나

이 글은 GPU가 AI의 엔진이 된 역사부터, 2026년 각 진영의 전략과 무기, 그리고 이 전쟁의 승자가 결정될 핵심 변수까지를 완전 정리한다.

제1장: NVIDIA는 어떻게 AI의 표준이 되었는가

GPU의 진화: 게임기에서 AI 엔진으로

NVIDIA GPU가 AI의 표준 하드웨어가 된 것은 우연이 아니었다. 세 가지 결정적 순간이 있었다.

2006년 — CUDA의 탄생. NVIDIA가 GPU를 범용 연산에 사용할 수 있는 프로그래밍 플랫폼 CUDA를 출시했다. 당시에는 "누가 그래픽 카드로 과학 계산을 하겠느냐"는 회의론이 많았다. 하지만 CUDA는 이후 AI 생태계 전체의 토대가 됐다.

2012년 — AlexNet 순간. 토론토 대학의 알렉스 크리제프스키가 NVIDIA GPU 2장으로 학습한 AlexNet이 ImageNet 대회에서 오류율 15.3%를 기록, 2위(26.2%)를 10%포인트 격차로 이겼다. 이 순간 딥러닝 혁명이 시작됐고, NVIDIA GPU가 그 엔진이 되는 것이 결정됐다.

2017년 — Tensor Core의 등장. V100에서 처음 도입된 Tensor Core는 행렬 곱셈을 전용 하드웨어로 가속하는 장치다. AI 워크로드에 특화된 이 혁신으로 AI 학습 속도가 극적으로 향상됐다.

GPU 세대별 진화

NVIDIA GPU — 세대별 AI 성능 (FP16/FP8 TFLOPS)

V100 (2017)

125 TF

A100 (2020)

624 TF

H100 (2022)

3,958 TF

B200 (2025)

10,000 TF (FP8)

B300 Ultra (2025)

15,000 TF (FP4)

V100에서 B300까지 8년간 AI 성능은 120배 증가했다. 무어의 법칙이 한계에 부딪힌 시대에, AI 칩의 성능 향상 속도는 오히려 가속되고 있다.

CUDA 모트: 소프트웨어가 만든 해자

NVIDIA의 진짜 경쟁력은 하드웨어가 아니다. CUDA다.

400만 명 이상의 개발자
3,000개 이상의 GPU 가속 애플리케이션
40,000개 이상의 사용 기업
AI 개발자의 98%가 CUDA에 의존

CUDA 위에 구축된 생태계(cuDNN, cuBLAS, TensorRT, NCCL)를 다른 플랫폼으로 옮기려면, 엔지니어를 재교육하고, 최적화된 커널을 다시 작성하고, 성능을 다시 검증해야 한다. 이 전환 비용이 거대한 해자(moat)를 형성한다.

NVIDIA의 로드맵: 연간 리듬

젠슨 황은 연간 신제품 출시 리듬을 공약했다:

Blackwell (2024) → Blackwell Ultra (2025) → Vera Rubin (2026 H2)

→ Rubin Ultra (2027) → Feynman (2028)

Vera Rubin(2026년 하반기)은 TSMC 3nm 공정, HBM4 메모리(칩당 288GB), 13 TB/s 대역폭을 탑재한다. Rubin NVL144 랙은 3.6 ExaFLOPS FP4 — GB300 NVL72 대비 3.3배.

제2장: Google TPU — 10년의 내공

TPU의 탄생과 진화

구글은 AI 전용 칩을 가장 먼저, 그리고 가장 오래 만들어온 회사다. 2015년 내부 프로젝트로 시작해, 2016년 알파고에 TPU v1을 사용한 것이 첫 공개 사례였다.

세대	연도	핵심 스펙	특징
v1	2016	92 TOPS INT8, DDR3	추론 전용, 알파고
v2	2017	8GB HBM, bfloat16	최초 학습 가능, bfloat16 포맷 도입
v3	2018	420 TFLOPS, 수냉식	2,048칩 팟
v4	2021	3D 토러스 + 광학 스위칭	4,096칩 팟, OCS
v5p	2023	459 TFLOPS, 95GB HBM	8,960칩 팟 (4.45 EFLOPS)
v6e Trillium	2024	918 TFLOPS, 32GB HBM	v5e 대비 4.7배 성능
v7 Ironwood	2025	4,614 TFLOPS FP8, 192GB HBM3e	42.5 EFLOPS 슈퍼팟

TPU v7 "Ironwood": 추론의 시대를 위한 칩

2025년 4월 발표된 TPU v7 Ironwood은 구글이 "추론의 시대를 위해 설계됐다"고 명시한 칩이다.

TPU v7 Ironwood 핵심 스펙

컴퓨트 칩당 4,614 TFLOPS FP8 (4.6 PFLOPS)
네이티브 FP8 지원 (E4M3/E5M2)

메모리 192GB HBM3e / 칩당 7.4 TB/s 대역폭
ICI 칩간 연결: 9,600 Gbps

스케일 256칩 팟 → 9,216칩 슈퍼팟
슈퍼팟 성능: 42.5 ExaFLOPS FP8

누가 TPU를 쓰는가

TPU의 가장 큰 외부 고객은 Anthropic이다. 2025년 10월, Anthropic은 구글과 수백억 달러 규모의 계약을 체결하며 최대 100만 개의 TPU 사용을 확보했다. 2026년에 1기가와트 이상의 컴퓨팅 용량이 가동될 전망이다.

Apple도 Apple Intelligence 서버 모델을 TPU v5p 클러스터(8,192칩)에서 학습했다. Meta는 2025년 8월 구글 클라우드와 6년, 100억 달러 규모의 계약을 체결했다.

GPU와의 구조적 차이

TPU는 GPU와 근본적으로 다른 설계 철학을 가진다.

GPU vs TPU — 아키텍처 비교

NVIDIA GPU SIMT (범용 병렬 처리)
NVLink/NVSwitch 연결
CUDA 생태계
학습 + 추론 모두 강점

Google TPU 시스톨릭 어레이 (행렬 곱셈 특화)
ICI + 광학 스위칭 (OCS)
JAX/XLA 생태계
대규모 학습 + 추론 최적화

TPU의 광학 회로 스위칭(OCS)은 특히 주목할 기술이다. MEMS 미러를 사용해 수천 개의 칩 사이 토폴로지를 동적으로 재구성할 수 있다. 이것은 대규모 분산 학습에서 통신 병목을 줄이는 핵심 기술이다.

제3장: AWS Trainium — 클라우드 제왕의 자체 무기

Trainium의 급속 진화

아마존은 AI 칩 시장의 후발 주자지만, 세계 최대 클라우드인 AWS의 인프라 위에서 빠르게 추격하고 있다.

세대	연도	FP8 성능	메모리	특징
Trainium 1	2022	A100급	32GB HBM	50% 낮은 학습 비용 주장
Trainium 2	2024	Trn1의 4배	96GB HBM	UltraServer 64칩, NeuronLink
Trainium 3	2025.12	칩당 2.52 PFLOPS	144GB HBM3e	TSMC 3nm, 40% 에너지 효율 향상

Trainium 3의 UltraServer는 144개 칩을 하나의 시스템으로 묶어 총 362 PFLOPS를 제공한다. Trainium 2 UltraServer 대비 4.4배 성능이다.

이미 발표된 로드맵에는 Trainium 4도 포함되어 있다. FP4 처리량 6배, FP8 3배, 메모리 대역폭 4배 향상이 예고됐으며, 놀랍게도 NVIDIA NVLink Fusion 지원이 포함된다 — Trainium과 NVIDIA GPU를 하이브리드로 연결하는 것이다.

Anthropic과의 동맹: 프로젝트 레이니어

AWS의 AI 칩 전략에서 가장 중요한 동맹은 Anthropic이다. 아마존은 Anthropic에 총 80억 달러 이상을 투자했고, Anthropic은 Trainium을 핵심 인프라로 사용한다.

프로젝트 레이니어(Project Rainier)는 인디애나 주 1,200에이커 부지에 구축 중인 전용 학습 클러스터로, 약 50만 개의 Trainium 2 칩을 사용한다. 이전 Claude 모델 대비 5배의 컴퓨팅 파워를 제공할 예정이다.

전체적으로 Trainium 전 세대를 합쳐 140만 개 이상의 칩이 배치되어 있다(2026년 초 기준).

제4장: Groq — 속도의 극한을 추구하다

LPU: 완전히 다른 접근법

Groq은 모든 도전자 중 가장 급진적인 설계 철학을 가진 회사다. 구글 TPU의 핵심 설계자였던 조너선 로스(Jonathan Ross)가 창업했다.

Groq의 LPU(Language Processing Unit)는 기존 칩들과 근본적으로 다르다:

HBM 없음 — 수백 MB의 온칩 SRAM을 주 메모리로 사용. HBM의 병목을 원천 제거
결정론적(deterministic) 실행 — 컴파일러가 모든 연산 스케줄을 사전에 결정. 런타임 변동 없음
공랭식 — 복잡한 냉각 인프라 불필요
수백 개 칩이 단일 코어처럼 작동 — 직접 칩간 통신 프로토콜

이 설계의 결과는 압도적인 추론 속도다:

Groq LPU 추론 속도 (토큰/초)

Llama 3.1 8B

840 TPS

Qwen3 32B

662 TPS

Llama 3.3 70B

394 TPS

GPT-OSS 20B

1,000 TPS

NVIDIA의 200억 달러 인수

2025년 12월 24일, 크리스마스 이브에 NVIDIA가 Groq의 자산을 약 200억 달러(현금)에 인수했다. NVIDIA 역사상 최대 규모 딜이었다. 창업자 조너선 로스와 사장 서니 마드라가 NVIDIA로 이동했고, GroqCloud는 새 CEO 사이먼 에드워즈 아래에서 독립 운영을 유지한다.

2026년 3월 GTC에서 NVIDIA는 인수한 Groq IP를 기반으로 한 Groq 3 LPU를 최초 공개했다. 메모리 대역폭 150 TB/s — 자사 Rubin의 22 TB/s의 7배 — 를 주장했다.

이 인수는 NVIDIA가 추론 시장을 얼마나 심각하게 보고 있는지를 보여준다. GPU는 학습에 최적이지만, 추론에서는 Groq 같은 특화 칩이 유리할 수 있다. NVIDIA는 그 위협을 흡수하는 전략을 택했다.

제5장: Meta MTIA — 소셜 미디어 제왕의 자체 칩

왜 메타가 칩을 만드는가

메타의 AI 워크로드는 추론이 압도적이다. 매일 수십억 명의 사용자에게 피드 추천, 광고 순위, 콘텐츠 모더레이션, 릴스 추천을 제공한다. 이 추론 워크로드를 NVIDIA GPU로 처리하면 비용이 천문학적이다.

MTIA(Meta Training and Inference Accelerator)는 이 특수한 요구에 최적화된 자체 칩이다.

세대	연도	공정	성능	전력	특징
MTIA v1	2023	7nm	102 TOPS INT8	25W	LPDDR5 (HBM 아님)
MTIA v2	2024	5nm	354 TOPS INT8	90W	8x8 PE, GPU 대비 TCO 44%↓
MTIA 300	2025	—	—	—	학습용 (프로덕션 배치)
미래	2026	—	30 PFLOPS	1,700W	512GB HBM, 슈퍼칩

MTIA의 핵심 전략은 HBM 대신 LPDDR 사용이다. HBM은 비싸고 공급이 부족하지만, LPDDR은 저렴하고 풍부하다. 추론 워크로드에는 학습만큼의 메모리 대역폭이 필요하지 않으므로, 이 트레이드오프가 성립한다.

더 급진적인 것은 메타가 커스텀 RISC-V 아키텍처로 전환하고 있다는 것이다. NVIDIA, AMD, Intel, ARM — 기존 아키텍처 어느 것에도 의존하지 않는 완전한 자체 설계를 지향한다.

제6장: 그 외의 도전자들

AMD: 가장 강력한 상업적 대안

AMD의 MI300X(2023)은 192GB HBM3(이후 256GB HBM3E)라는 압도적 메모리로 추론 시장에서 틈새를 확보했다. 2025년의 MI350 시리즈는 CDNA 4 아키텍처, 3nm 공정으로 MI300 대비 추론 성능 35배 향상을 주장한다.

2025년 AI 칩 매출 56억 달러 전망. 시장 점유율 5-8%로, NVIDIA에 이은 2위다.

Microsoft Maia 200: 하이퍼스케일러의 반격

2026년 1월 공개된 Maia 200은 마이크로소프트 자체 설계 AI 칩의 2세대다. TSMC 3nm, 1,400억 트랜지스터, 216GB HBM3e, FP4 10+ PFLOPS. OpenAI GPT-5.2와 Microsoft 365 Copilot을 구동 중이다.

마이크로소프트 CTO는 "대부분의 AMD/NVIDIA GPU를 자체 칩으로 교체하는 것이 목표"라고 밝혔다.

Cerebras WSE-3: 웨이퍼 스케일의 미래

Cerebras의 접근은 독보적이다. 칩을 만드는 대신, 웨이퍼 전체를 하나의 프로세서로 사용한다.

4조 개 트랜지스터, 90만 개 AI 코어
44GB 온칩 SRAM, 21 PB/s 내부 대역폭
Llama 4 Maverick 추론: 사용자당 2,500 TPS

2026년 IPO를 추진 중이다.

중국: 자급자족의 길

미국의 수출 규제 속에서 중국은 반도체 자급률을 2019년 15%에서 2025년 25%로 끌어올렸다.

화웨이 Ascend 910C: SMIC의 N+2(~7nm) 공정으로 생산. 2026년 목표 60만 개(전년 대비 2배). H100의 약 60-70% 성능으로 추정된다. 핵심 병목은 HBM — 중국에는 아직 경쟁력 있는 자체 HBM 기술이 없다.

캠브리콘(Cambricon): 2025년 3분기까지 매출 46억 위안으로 중국 AI 칩 매출 1위. 2026년 50만 개 칩 생산 목표(3배 증산).

제7장: 2026년의 핵심 트렌드

트렌드 1: 추론이 학습을 넘어서다

2026년은 추론 워크로드가 학습을 넘어선 원년이다.

AI 컴퓨트 비중 — 학습 vs 추론

2023

학습 67% / 추론 33%

2025

학습 50% / 추론 50%

2026 (전망)

학습 33% / 추론 67%

추론 최적화 칩 시장은 2026년 500억 달러 이상으로 전망된다. 구글이 TPU v7를 "추론의 시대를 위해 설계했다"고 말한 것, Groq이 추론 속도에 올인하는 것, 모두 이 트렌드의 반영이다.

트렌드 2: 칩렛(Chiplet) 아키텍처

단일 거대 칩(monolithic) 대신, 여러 개의 작은 칩(chiplet)을 연결하는 설계가 표준이 되고 있다. NVIDIA Blackwell은 이미 두 개의 GPU 다이를 하나의 패키지에 넣는 칩렛 설계를 채택했다.

장점: 작은 다이 = 높은 수율 = 낮은 비용. HBM을 로직 칩렛 가까이 배치해 대역폭과 에너지 효율을 동시에 개선할 수 있다.

트렌드 3: 에너지 효율이 핵심 지표로

현대 AI GPU의 전력 소비: H100(700W) → B200(1,000W) → B300(1,400W). AI 데이터센터 전력 소비는 2026년 90 TWh(약 10GW 용량)에 달할 전망이다. 전 세계 전기 소비의 약 1.5%.

"토큰당 와트(tokens per watt)"가 새로운 핵심 벤치마크로 부상하고 있다. 성능만 높이는 것이 아니라, 같은 전력으로 더 많은 연산을 수행하는 것이 경쟁력이다. 액체 냉각은 이미 고성능 시스템에서 필수가 됐다(GB300 NVL72은 완전 수냉).

트렌드 4: 광학 인터커넥트

구리(copper) 배선이 대역폭 한계에 도달하면서, 광학 인터커넥트가 부상하고 있다. 800G와 1.6T 광학 트랜시버가 양산에 들어갔고, SiPh/CPO(실리콘 포토닉스/코패키징 옵틱스) 플랫폼이 AI 스위치에 배치되기 시작했다.

구글 TPU v4는 이미 2021년부터 광학 회로 스위칭(OCS)을 사용 중이다. 2026년은 광학 인터커넥트가 표준 아키텍처 전제가 되는 해다.

제8장: 경제학 — 칩 전쟁의 본질

시장 규모

글로벌 AI 칩 시장 규모

2024

~$530-1,180억

2026

~$700-1,220억

2030 (전망)

~$2,930억

2034 (전망)

~$9,310억

프론티어 모델 학습 비용

모델	학습 시기	추정 비용
GPT-4	2022년 중반	~$78-100M
Gemini Ultra	2023	~$191M
Llama 3.1 405B	2024	~$170M
DeepSeek V3	2024	$5.6M (효율 혁신)

Anthropic CEO 다리오 아모데이의 전망: 2025년 프론티어 학습에 약 10억 달러, 2년 내 100억 달러 규모의 단일 학습이 예상된다.

왜 자체 칩이 중요한가

하이퍼스케일러들이 수십억 달러를 투자해 자체 칩을 만드는 이유:

비용 절감 — 특화 ASIC은 범용 GPU 대비 30-50% 우수한 가성비
공급망 독립 — 만성적 GPU 부족에서 벗어남
전략적 통제 — 핵심 인프라를 단일 공급자에 의존하는 위험 제거
워크로드 최적화 — 학습 vs 추론, 추천 vs 생성 등 목적별 최적 설계

마치며: 전쟁의 승자는 누구인가

NVIDIA 의존에서 벗어나려는 로봇들

AI 칩 전쟁의 구도를 한 문장으로 요약하면 이렇다:

NVIDIA가 여전히 왕이지만, 왕의 고객들이 모두 왕좌를 노리고 있다.

NVIDIA의 시장 점유율은 2024년 87%에서 2026년 ~75%로 하락할 전망이다. 절대적 수치로는 여전히 압도적이지만, 방향은 분명하다. 시장이 연 30% 이상 성장하면서 NVIDIA의 매출은 계속 늘겠지만, 파이에서의 비중은 줄어들 것이다.

각 진영의 전략을 정리하면:

AI 칩 전쟁 — 진영별 전략 요약

NVIDIA 연간 신세대 출시 + Groq 인수
학습+추론 모두 지배
CUDA 생태계 강화

Google (TPU) 10년 내공, Ironwood 42.5 EF
Anthropic·Meta·Apple 확보
추론 최적화 선언

AWS (Trainium) 4세대 급속 진화
Anthropic 전용 클러스터
NVLink Fusion 하이브리드

Meta (MTIA) 추론 특화 + RISC-V 전환
LPDDR로 HBM 회피
6개월 출시 주기

Microsoft (Maia) Maia 200: 10+ PFLOPS FP4
OpenAI 전용 인프라
"자체 칩으로 교체" 선언

이 전쟁의 최종 승자를 결정할 변수는 세 가지다.

1. 추론 경제학. 학습은 한 번 하면 끝이지만, 추론은 서비스가 지속되는 한 영원히 계속된다. 추론 비용을 가장 낮추는 칩이 장기적 승자다.

2. 소프트웨어 생태계. CUDA의 해자를 깰 수 있는가? PyTorch의 오픈소스 레이어가 하드웨어 추상화를 높이면, 칩 전환이 쉬워진다. 구글의 TorchTPU 프로젝트가 핵심 변수.

3. 에너지 효율. AI 데이터센터의 전력 수요가 폭증하면서, "성능"보다 "와트당 성능"이 결정적 지표가 되고 있다.

확실한 것 하나: AI 칩 전쟁은 아직 초반전이다. 2026년 9,310억 달러로 전망되는 시장이 단 한 곳에 의해 독점될 수는 없다. 전쟁은 계속된다.

참고 자료:

NVIDIA GTC 2025/2026 발표 자료
Google Cloud TPU v7 Ironwood 발표 (April 2025)
AWS re:Invent 2025 Trainium 3 발표
Groq Series E / NVIDIA 인수 발표 (December 2025)
Meta MTIA 아키텍처 블로그
Stanford AI Index Report 2025
Epoch AI, Bloomberg Intelligence, Grand View Research 시장 보고서

기술2026.01.03