온디바이스 AI엣지 AIAppleApple IntelligencePrivate Cloud ComputeNeural EngineApple Silicon양자화증류GeminiLiquid AIFoundation ModelsWWDC 2026엣지 컴퓨팅

Apple의 역(逆)베팅: 데이터센터 대신 당신의 주머니 — 온디바이스 AI 완전 해부

전 세계 빅테크가 데이터센터에 한 해 \$725B를 쏟아붓는 동안, Apple은 정반대로 베팅했다 — 이미 사용자 주머니 속에 있는 수십억 대 기기. 2026년 6월 WWDC를 앞두고 Apple은 15년간 쌓은 자체 실리콘 경험을 무기로 \"클라우드 대신 기기에서\" AI를 돌리는 온디바이스 전략을 전면에 내세운다. 메인프레임→PC→클라우드→엣지로 도는 컴퓨팅의 진자, A11(0.6 TOPS)에서 M4(38 TOPS)까지 63배 커진 Neural Engine, 통합 메모리로 671B 모델을 Mac에 통째로 올리는 법, Apple Intelligence의 영광과 BBC 헤드라인 참사·Siri 연기·\$250M 합의, Private Cloud Compute의 5대 프라이버시 보장, 2026년 Google Gemini 딜과 Nvidia 컨피덴셜 컴퓨트, 증류·양자화·LoRA로 모델을 다이어트시키는 원리, \"사용자가 사준 컴퓨팅\" \$50B 논리, 그리고 개발자·기업을 위한 온디바이스 vs 클라우드 실무 의사결정까지. 인터랙티브 시뮬레이터 3종 포함.

코어닷투데이2026-06-0347분

프롤로그: 같은 미래를 향한 두 갈래 길

2026년 6월 8일, 애플 파크. WWDC 2026의 막이 오른다. 무대의 주인공은 오래 미뤄진 아이폰의 AI 업그레이드들이겠지만, Apple이 진짜로 강조하려는 것은 따로 있다 — 데이터센터가 아니라 기기에서 AI를 돌리는 능력.

지금 테크 업계는 정반대 방향으로 달려가고 있다. Microsoft는 올해(2026) 데이터센터에 약 $190B를 쓰겠다고 했다. Google·Microsoft·Meta·Amazon 네 회사의 2026년 설비투자(capex)를 합치면 약 $725B, 전년 대비 77% 급증이다. AI는 곧 막대한 클라우드 컴퓨팅을 누가 더 많이 쌓느냐의 싸움처럼 보였다.

그런데 Apple은 이 군비경쟁에서 벤치에 앉아 있었다. 같은 기간 Apple의 설비투자는 $12.72B — Microsoft 한 회사의 1/7 수준이다. 투자자와 평론가들은 "Apple이 AI 시대에 뒤처지는 것 아니냐"고 비판했다.

하지만 2026년 들어 분위기가 바뀌었다. 일부 기술자들이 데이터센터 과잉투자를 걱정하기 시작하면서, Apple의 보수적인 베팅을 다시 보기 시작한 것이다.

"데이터센터 붐은 실수라고 본다. 인텔리전스는 점점 작아지고 있다(Intelligence is getting smaller). 데이터센터가 사라지진 않겠지만, 작업의 대부분은 엣지에서 일어날 것이다. Apple은 거기에 제대로 베팅했다." — David Stout, 엣지 AI 스타트업 webAI CEO

이 글은 그 역(逆)베팅에 관한 이야기다. 온디바이스 AI가 무엇인지, 어떻게 여기까지 왔는지(역사), 지금 어디로 가는지(2026년의 대반전), 그리고 개발자와 기업은 무엇을 해야 하는지(실무)까지 — 한 편에서 쉽고 자세하게 풀어낸다.

크게 보기

1장. 클라우드 AI vs 온디바이스 AI — 5분 만에 끝내는 기본기

두 단어부터 정리하자

클라우드 AI는 당신의 질문을 멀리 있는 데이터센터로 보내 거대한 모델이 처리하고 답을 돌려주는 방식이다. ChatGPT, Gemini 웹, Claude — 우리가 아는 대부분의 생성형 AI가 여기에 속한다.

온디바이스 AI(=엣지 AI)는 당신의 기기 안에서 모델이 직접 돌아가는 방식이다. 인터넷이 끊겨도 작동하고, 데이터가 기기를 떠나지 않는다.

왜 굳이 기기에서? — 네 가지 이유

온디바이스 AI가 주는 네 가지 이점

프라이버시 (데이터가 기기 밖으로 안 나감)

최강

핵심

지연 (네트워크 왕복 없음 → 즉시 응답)

매우 빠름

강점

비용 (토큰당 과금 없음 = 한계비용 0)

무료

강점

오프라인 (인터넷 없이도 작동)

가능

강점

기업 입장에서 비용은 특히 중요하다. 클라우드 AI는 토큰(텍스트를 잘게 쪼갠 단위) 단위로 돈을 받는데, 이게 영원히 반복되는 비용이다. 반면 기기에서 돌리면 기기를 산 순간 비용은 이미 치러진 셈이라 한계비용이 0에 가깝다. 광고 회사가 개인정보를 수익화하는 길도 막힌다.

그런데 왜 다 기기에서 안 하는가? — 정직한 한계

문제 1 — 품질 천장

폰에 들어가는 30억(3B) 파라미터급 모델은 세상 지식이나 복잡한 추론에서 수천억~수조 파라미터의 프런티어 모델을 따라갈 수 없다.

⚡

문제 2 — 전력·발열

NPU를 계속 돌리면 배터리가 닳고 기기가 뜨거워진다. 폰은 데이터센터처럼 무한히 연산할 수 없다.

∿

문제 3 — 파편화

기기마다 NPU 성능(TOPS)과 메모리가 천차만별이다. 개발자가 균일한 성능을 가정할 수 없다.

그래서 현실의 정답은 "기기냐 클라우드냐"가 아니라 하이브리드다. 가볍고 민감하고 자주 쓰는 일은 기기에서, 무겁고 지식이 필요한 일은 클라우드에서 — 둘을 똑똑하게 섞는 것. Apple Intelligence의 설계가 바로 이 하이브리드의 교과서다(5장에서 자세히).

2장. 추의 진자 — 컴퓨팅은 언제나 중앙과 끝을 오간다

50년을 관통하는 한 가지 패턴

컴퓨팅의 역사는 중앙집중과 분산을 오가는 진자 운동이었다.

크게 보기

1960~70s

메인프레임 — 거대한 중앙 컴퓨터에 단말기를 연결. 모든 연산이 중앙에.

1980~90s

PC — 연산이 책상 위 개인 컴퓨터로 분산. 끝(엣지)으로 이동.

2010s

클라우드 — 다시 중앙으로. 데이터와 연산이 거대 데이터센터로 집결.

2020s~

엣지(온디바이스 AI) — 진자가 다시 끝으로. AI 연산이 기기로 내려온다.

지금 우리가 보는 "AI를 기기로" 흐름은 새로운 현상이 아니라, 30년 된 메인프레임 vs 클라이언트-서버 논쟁의 재연이다. 다른 점은 이번에 분산되는 게 지능 그 자체라는 것.

2017년 — 모바일 AI 실리콘이 태어난 해

추가 엣지로 돌아오기 시작한 결정적 순간은 2017년이었다. 그해에 세 가지가 한꺼번에 일어났다.

시점	사건	의미
2017년 6월	Apple, Core ML 발표 (WWDC)	"모델이 기기에서 돌아가므로 데이터가 기기를 떠나지 않는다" — 온디바이스 추론 SW
2017년 9월	Apple, A11 Bionic + 첫 Neural Engine 출시	2코어, 0.6 TOPS. Face ID가 첫 임무
2017년 9월	Huawei, Kirin 970에 모바일 NPU 탑재	스마트폰용 전용 AI 가속기의 시작

그전에도 모바일에서 ML은 CPU·GPU·DSP로 돌았지만, 전용 AI 가속기(NPU)가 폰에 들어간 건 이때부터다. Google도 같은 흐름에서 2017년 TensorFlow Lite를 내놨고, 2019년에는 완전 온디바이스 음성인식을 Gboard에 넣어 양자화로 4배 압축·4배 가속을 달성했다.

0.6에서 38로 — 7년간 63배 커진 주머니 속 두뇌

Apple의 Neural Engine(ANE)은 그 후 조용히, 그러나 폭발적으로 커졌다. 아래 시뮬레이터로 직접 확인해보자.

A11의 0.6 TOPS(초당 6천억 연산)에서 M4의 38 TOPS까지 — 7년 만에 약 63배다. 이 가속기가 그동안 Face ID, 컴퓨테이셔널 포토그래피, Live Text, 실시간 번역을 처리해왔고, 2024년부터는 Apple Intelligence의 온디바이스 모델을 굴린다.

흥미로운 변곡점: 2025년 A19 Pro·M5부터 Apple은 GPU 코어마다 "뉴럴 가속기"를 심기 시작했다. AI 연산이 더 이상 ANE 한 곳에 모이지 않게 되면서, Apple은 단일 TOPS 숫자로 성능을 표현하길 멈췄다. AI가 칩 전체로 스며든 것이다.

3장. Apple Silicon이 특별한 이유 — "통합 메모리"라는 비밀병기

큰 모델을 기기에 올리는 진짜 관문은 '메모리'

LLM을 기기에서 돌릴 때 진짜 병목은 연산 속도(FLOPS)가 아니라 메모리다. 토큰을 하나씩 뱉어내는 과정은 메모리 대역폭에 묶여 있다(memory-bandwidth-bound). 게다가 대화가 길어질수록 KV 캐시가 계속 쌓여 메모리를 더 잡아먹는다.

여기서 Apple Silicon의 통합 메모리 아키텍처(Unified Memory)가 빛을 발한다. 보통의 PC는 CPU 메모리와 GPU 메모리(VRAM)가 분리되어 있어, 둘 사이에 데이터를 복사하느라 시간을 버린다. Apple Silicon은 CPU·GPU·Neural Engine이 하나의 메모리 풀을 공유한다 — 복사가 없고, GPU가 시스템 메모리 전체를 모델 적재에 쓸 수 있다.

실화: Mac Studio 한 대에 6,710억 파라미터 모델 올리기

이게 얼마나 강력한지는 실제 사례가 말해준다.

M3 Ultra Mac Studio · DeepSeek R1 671B 로컬 구동

칩: M3 Ultra — 통합 메모리 최대 512GB, 메모리 대역폭 819 GB/s
모델: DeepSeek R1, 6,710억(671B) 파라미터를 4비트 양자화로 적재 (디스크 ~404GB)
결과: 데이터센터 GPU 없이 책상 위에서 초당 약 17~18 토큰 생성

# 단, 긴 프롬프트(8K 토큰)를 먹는 초기 처리(prefill)는 수 분이 걸릴 수 있음 — 생성은 빠르지만 대용량 입력은 느리다.

물론 671B는 극단적인 시연이다. 하지만 70B~120B급 모델이라면 M3 Ultra에서 대화형으로 충분히 쓸 만하다. 클라우드 없이, 전기료 몇 푼으로, 데이터를 단 한 비트도 외부로 보내지 않고 — 이게 통합 메모리가 연 새로운 가능성이다.

Apple의 온디바이스 SW 4종 세트

기기에서 AI를 돌리는 소프트웨어 사다리도 함께 진화했다.

Apple 온디바이스 ML 스택 — 역할로 한 줄 요약

Create ML

내 데이터로 모델 학습 (노코드)

Core ML

학습된 모델을 앱에 배포·추론 (2017~)

MLX

Apple Silicon용 LLM 실행·파인튜닝 (오픈소스, 2023~)

Foundation Models

내장 3B 모델을 Swift로 직접 호출 (2025~)

특히 2025년 WWDC에서 공개된 Foundation Models 프레임워크는 게임체인저다 — 개발자가 단 몇 줄의 Swift 코드로, 아이폰에 내장된 3B 모델을 무료로(토큰 과금 없이) 호출할 수 있게 됐다(10장에서 실무 활용을 자세히).

4장. Apple Intelligence — 영광, 그리고 굴욕의 18개월

2024년 6월: 화려한 출발

Apple은 2024년 6월 WWDC에서 Apple Intelligence를 발표했다. 핵심은 두 가지였다.

하이브리드 모델 구조: 온디바이스 ~3B 모델 + 더 큰 작업을 위한 서버 모델(Private Cloud Compute, Apple 실리콘 서버).
프라이버시 우선: 가능한 처리는 기기에서, 꼭 필요한 큰 연산만 클라우드로 — 데이터를 저장하지 않는다.

기능도 풍성했다. Writing Tools(요약·교정·다시쓰기), Image Playground, Genmoji, 그리고 사용자가 명시적으로 동의할 때만 ChatGPT로 넘기는 Siri 연동까지. 2024년 10월(iOS 18.1)부터 순차 출시됐다.

그리고 흔들리기 시작했다

2024.12

BBC 헤드라인 참사 — 알림 요약 기능이 BBC 뉴스 22건을 합쳐 "용의자가 자해했다"는 완전한 허위 헤드라인을 생성. NYT·스포츠 뉴스에서도 오류 속출. BBC·국경없는기자회가 기능 철회 요구.

2025.1

긴급 후퇴 — Apple, iOS 18.3 베타에서 뉴스·엔터 카테고리 알림 요약을 비활성화.

2025.3

Siri 연기 — 아이폰 16 마케팅에서 약속했던 "더 개인화된 Siri"를 2026년으로 공식 연기. AI의 핵심 약속이 미뤄졌다.

2026.5

$250M 합의 — 지연된 Siri 기능을 둘러싼 허위광고 집단소송에 2억 5천만 달러로 합의.

2024년에 프라이버시를 앞세워 화려하게 데뷔했던 Apple은, 그 뒤 일련의 헛발질 속에서 온디바이스 이야기를 한동안 조용히 접었다. 평론가들은 "Apple이 AI에서 손을 놨다"고 평했다.

핵심 교훈: 온디바이스든 클라우드든, 작은 모델에게 큰 모델의 일을 시키면 사고가 난다. BBC 헤드라인 참사는 본질적으로 요약 모델의 능력을 넘는 작업을 자동화하려다 벌어진 일이었다. 이것이 5장의 "라우팅" 설계가 왜 중요한지를 보여준다.

5장. 하이브리드 설계의 교과서 — 온디바이스 3B + Private Cloud Compute

모든 질문을 같은 곳으로 보내지 않는다

Apple Intelligence의 핵심은 요청마다 가장 적합한 곳을 고른다는 것이다. 먼저 기기에서 처리할 수 있는지 보고, 안 되면 더 큰 연산이 필요한 만큼만 Private Cloud Compute(PCC)로 올린다.

크게 보기

직접 시뮬레이터로 이 라우팅을 체험해보자.

직관이 잡혔는가? 민감하고·가볍고·자주 쓰는 일일수록 기기 안으로, 세상 지식·깊은 추론이 필요할수록 바깥으로 — 이 한 줄이 하이브리드 AI 설계의 전부다.

Private Cloud Compute — "클라우드인데 기기처럼 안전하게"

클라우드로 보내는 순간 프라이버시는 끝이라는 게 상식이었다. Apple은 이 상식을 깨기 위해 PCC를 만들었다.

크게 보기

PCC가 약속하는 5대 보장은 이렇다.

#	보장	무슨 뜻인가
1	무상태(Stateless)	응답을 돌려준 뒤 개인 데이터를 로깅·디버깅 포함 일절 보존하지 않음. 재부팅마다 암호화 키를 새로 만들어 데이터가 살아남지 못함
2	특권 접근 불가	원격 셸·시스템 들여다보기 도구 자체를 배제. 운영자도 제한된 지표만 봄
3	표적 불가(Non-targetability)	1회용 익명 자격증명 + 제3자 릴레이로 특정 사용자를 겨냥할 수 없게 함
4	검증 가능한 투명성	모든 프로덕션 SW 이미지를 보안 연구자에게 공개, 변조 불가 로그 운영
5	커스텀 Apple 실리콘	iPhone급 보안(Secure Enclave 등)을 갖춘 자체 서버 하드웨어

핵심은 "Apple조차 당신의 데이터를 볼 수 없다"를 마케팅이 아니라 암호학적으로 보장하려 했다는 점이다. 온디바이스 우선 → 안 되면 검증 가능한 PCC → 그래도 안 되면(사용자 동의하에) 외부 모델. 이 3단 사다리가 2024년 Apple의 원래 그림이었다.

그런데 2026년, 이 그림에 큰 균열이 생긴다.

6장. 2026년의 대반전 — Google·Nvidia와 손잡은 Apple

풀 Gemini는 Apple 서버에서 안 돌아갔다

문제는 규모였다. 새 Siri를 제대로 굴리려면 수조 파라미터급 모델이 필요한데, Apple의 PCC 서버(Mac과 같은 Apple 실리콘)로는 이 거대한 모델을 돌리기 버거웠다. 보도에 따르면 Apple은 풀 Gemini 모델을 자체 인프라에서 작동시키는 데 어려움을 겪었다.

그래서 Apple은 외부의 힘을 빌리기로 한다.

Apple, 모델 평가
Google·OpenAI·Anthropic 검토

→

Google Gemini 선택
2026.1 공식 발표

→

커스텀 1.2조 모델
연 ~$1B 지급 (보도)

보도된 딜의 윤곽은 이렇다 — Apple이 Google에 연 약 $1B를 지급하고, 약 1.2조(1.2 trillion) 파라미터의 커스텀 Gemini 모델로 새 Siri의 일부를 구동한다. 이는 Apple 기존 클라우드 모델(~1,500억)의 약 8배 규모다. 첫 Gemini 기반 Siri 기능은 2026년 봄(iOS 26.4)으로 예상되지만 — 일정은 여전히 유동적이다.

⚠️ 사실관계 주의 — "어디서 돌아가는가" 논쟁: 이 딜에서 가장 논쟁적인 지점이다. Apple은 커스텀 Gemini가 자사 Private Cloud Compute에서 돈다고 주장했지만, Google의 순다르 피차이는 2026년 2월 실적발표에서 "Apple의 선호 클라우드 제공자로서 협력한다"며 Google Cloud 실행을 시사했다. 현재로선 "1.2조 모델은 Google Cloud, 증류된 소형 모델은 온디바이스/PCC"라는 하이브리드 해석이 가장 일관적이다. 단일 출처로 단정하기 어려운, 진행 중인 사안임을 염두에 두자.

Nvidia 컨피덴셜 컴퓨트 — 프라이버시를 클라우드로 확장하기

여기서 Apple의 프라이버시 집착이 다시 등장한다. 2026년 5월, Apple은 Google Cloud에서 Gemini를 처리하되 프라이버시를 지키기 위해 Nvidia의 컨피덴셜 컴퓨트(confidential compute)를 승인했다.

컨피덴셜 컴퓨트란

Nvidia GPU 안의 보안 기능. 처리 중인 데이터와 AI 모델을 암호화한다. 신뢰 실행 환경(TEE)을 GPU까지 확장해, 클라우드 서버조차 식별 가능한 사용자 데이터에 접근하지 못하게 한다.

⚖

트레이드오프

활성화하면 추론이 약간 느려질 수 있다. 하지만 사용 중 데이터에 더 강한 보호를 제공한다 — Apple이 프라이버시 약속을 지키기 위해 받아들인 비용.

✓

의미

2024년 "모든 비온디바이스 처리는 Apple 하드웨어에서"라던 원래 선언에서 한발 물러서면서도, Private Cloud Compute 브랜드와 프라이버시 원칙은 지키려는 절충안.

그리고 진짜 장기 포석: 증류

여기까지가 단기 응급처치라면, Apple의 장기 전략은 따로 있다. 큰 Gemini 모델을 선생님으로 삼아, 기기에서 돌아가는 작은 모델을 가르치는 것 — 이것을 증류(distillation)라고 한다.

Apple은 또한 모델을 작게 줄이는 역량을 보강하기 위해 작은 회사 인수를 물색해왔다. 그중 하나가 Liquid AI — MIT CSAIL에서 나온 케임브리지(MA)의 온디바이스 AI 스타트업이다(2024년 12월 시리즈 A $250M, 밸류에이션 약 $2.35B, AMD Ventures 주도). 비(非)트랜스포머 구조의 "Liquid Foundation Models"로 기기 효율에 특화돼 있다. (단, Apple의 인수는 검토 단계로 보도된 것이지 확정이 아니다.)

큰 모델은 빌려서 당장 쓰고, 그 지식을 증류해 내 기기에 심는다 — 이것이 2026년 Apple의 진짜 그림이다. 그렇다면 모델을 작게 만든다는 건 기술적으로 무슨 일일까?

7장. 작은 모델은 어떻게 만들어지는가 — 증류·양자화·LoRA

비유: 백과사전을 요약 노트로

거대한 클라우드 모델이 수백 권짜리 백과사전이라면, 온디바이스 모델은 시험 직전 요약 노트다. 모든 걸 담을 순 없지만, 자주 쓰는 핵심을 압축해 담는다. 이 압축에 쓰이는 세 가지 기술을 보자.

크게 보기

기술	한 줄 설명	비유
증류(Distillation)	큰 "선생님" 모델의 출력을 작은 "학생" 모델이 따라 배움	거장의 그림을 보고 제자가 화풍을 익힘
양자화(Quantization)	가중치 숫자의 정밀도를 낮춤 (16비트→8→4→2비트)	사진을 JPEG로 압축 — 용량↓, 품질은 약간만↓
LoRA 어댑터	본체는 얼리고, 작은 "어댑터"만 끼워 작업별로 특화	같은 카메라에 렌즈만 바꿔 끼우기

직접 해보는 모델 다이어트

양자화가 얼마나 모델을 줄이고, 품질은 얼마나 버티는지 — 슬라이더로 직접 당겨보자.

핵심 직관: 압축할수록 작아지지만, 어느 지점부터 품질이 꺾인다. 그래서 단순히 줄이기만 하면 BBC 헤드라인 참사 같은 일이 난다. Apple은 이 꺾임을 늦추기 위해 영리한 조합을 쓴다.

Apple의 실제 레시피 (2025 테크 리포트)

흥미롭게도 Apple의 온디바이스 모델은 교과서적 증류만 쓰는 게 아니다. 실제 레시피는 이렇다.

2비트 양자화 인지 학습(QAT): 양자화 후에 줄이는 게 아니라, 애초에 낮은 정밀도를 견디도록 학습시킨다.
혼합 비트 LoRA 어댑터(평균 ~3.7비트): 작업별 어댑터가 압축으로 잃은 품질을 되살리는 역할까지 겸한다(어댑터 rank=16이 최적).
KV 캐시 공유로 메모리 37.5% 절감 + 임베딩 4비트.

결과물은 약 3B(정확히는 ~3.18B) 파라미터, 디스크 ~1GB, 16개 언어, 컨텍스트 최대 65K 토큰을 다루는 모델이다. 이게 지금 아이폰 안에서 돌고 있다.

8장. 돈의 논리 — "사용자가 사준 컴퓨팅" $50B

군비경쟁의 청구서

다시 돈 이야기로 돌아오자. 2026년 빅테크의 설비투자는 상상을 초월한다.

연간 설비투자(capex) 비교 — Apple은 다른 게임을 하고 있다

Microsoft (2026 전망)

~$190B

최대

Microsoft (FY2025 실적)

~$88B

막대

Meta (2025 실적)

$72.2B

막대

Apple (FY2025 실적)

$12.72B

절제

Google·Microsoft·Meta·Amazon의 2026년 capex 합계는 약 $725B로 추정된다. Apple의 $12.72B는 Microsoft 한 회사의 1/7 수준. Apple은 거대 데이터센터를 짓는 대신 파트너에게서 용량을 사고, 하이브리드 PCC를 운영하는 길을 택했다.

토큰 경제학 — 영원히 반복되는 청구서

왜 이게 중요할까? 클라우드 AI는 토큰당 과금이다. 2026년 중반 기준 대표적 가격을 보자(100만 토큰당, 입력/출력).

모델	입력 (/1M)	출력 (/1M)
GPT-5.4	$2.50	$15.00
Claude Sonnet	$3.00	$15.00
Gemini 3 Flash	$0.50	$3.00
온디바이스 (Apple Foundation Models)	$0	$0

요약·분류·초안 작성처럼 대량·반복 작업에서, 클라우드는 쓸수록 비용이 쌓이는 opex다. 온디바이스는 기기 값에 이미 포함된 sunk cost라 한계비용이 0이다. 영원히 반복되는 청구서를 고정비로 바꾸는 것 — 이게 기업에게 온디바이스가 매력적인 이유다.

그리고 결정적 한 방: 사용자가 이미 사준 컴퓨팅

Apple만의 비대칭 무기가 여기 있다. Apple은 전 세계에 약 23억 대의 기기를 깔아놨고, 그 안의 NPU는 Apple이 아니라 사용자가 돈을 내고 산 것이다.

크게 보기

"Apple은 사용자가 비용을 댄(funded by users) 온디바이스 칩 형태로 약 $50B 규모의 컴퓨팅 용량을 갖고 있다." — Richard Kramer, Arete Research (추정치)

"Apple은 세계 누구보다 큰 엣지 컴퓨팅을 배치할 수 있다. 그걸 활용하는 건 시간 문제일 뿐이다." — Mark Suman, 전 Apple 엔지니어 · Maple 공동창업자

남들이 수천억 달러를 들여 데이터센터를 짓는 동안, Apple은 이미 사용자 주머니 속에 있는 컴퓨팅을 깨우기만 하면 된다. 이것이 "역베팅"의 핵심 논리다. (단, $50B는 Kramer의 추정치임에 유의.)

9장. 경쟁 지형 — Apple만 엣지로 가는 게 아니다

온디바이스 AI는 Apple의 전유물이 아니다. 주요 플레이어를 비교해보자.

진영	온디바이스 무기	특징
Apple	Foundation Models + ~3B 모델	무료·OS 내장·Swift 타입 안전. 개발자 경험(DX) 최고
Google	Gemini Nano (AICore, ML Kit)	Pixel·안드로이드. 멀티모달 Nano, Prompt API
Microsoft	Phi Silica (Copilot+ PC)	NPU 40+ TOPS 요구. PC 전용, 데이터 PC에 머묾
Samsung	Galaxy AI (하이브리드)	민감 작업은 온디바이스 Gemini Nano, 무거운 건 클라우드 — 사용자가 라우팅 선택
Meta	Llama 3.2 1B/3B	오픈 웨이트, 128K 컨텍스트, 모바일 최적화
Qualcomm	Snapdragon X NPU	Copilot+ PC를 떠받치는 하드웨어

큰 그림은 분명하다 — 업계 전체가 하이브리드(온디바이스 + 클라우드)로 수렴하고 있다. Apple의 차별점은 무료로, OS에 통합된, 타입 안전한 온디바이스 모델을 first-party 프레임워크로 준다는 점이다. 안드로이드의 ML Kit이 가장 가까운 경쟁자고, Microsoft의 Phi Silica는 PC·NPU 게이트에 묶여 있으며, Meta·Mistral은 오픈 웨이트지만 런타임·양자화를 개발자가 직접 챙겨야 한다.

10장. 실무 가이드 — 당신의 프로젝트는 어디서 돌려야 하나

이제 가장 중요한 부분, 실무다. 제품을 만드는 입장에서 온디바이스·클라우드·하이브리드를 어떻게 고를까?

의사결정 휴리스틱

작업 성격 → 실행 위치 결정

온디바이스로

민감 데이터 · 오프라인 필요 · 대량 반복(요약/분류/교정) · 지연 민감 UX · 비용 민감

클라우드로

프런티어 추론 · 긴 컨텍스트 · 세상 지식 · 저빈도·고가치 질의

하이브리드로 (대부분)

개인 컨텍스트는 로컬 · 무거운 작업만 클라우드 · 작업별 라우팅

손에 잡히는 도구들

도구	무엇	언제
Apple Foundation Models	Swift로 내장 3B 모델 호출, 가이드 생성·툴 콜링, 무료	iOS/macOS 앱에 온디바이스 AI를 가장 빠르게
Core ML	커스텀 모델을 앱에 배포·추론	자체 비전/음성 모델 탑재
MLX	Apple Silicon용 LLM 실행·파인튜닝	Mac에서 14B 이하 모델 연구·구동 (와트당 성능 최고)
llama.cpp + GGUF	이식성 높은 로컬 추론 표준	정밀한 양자화 제어, 대용량 모델
Ollama	llama.cpp 래퍼, 쉬운 로컬 실행	빠른 프로토타이핑 (M5+32GB부터 MLX 백엔드 미리보기)
Gemini Nano / ML Kit	안드로이드 온디바이스 API	안드로이드 앱

Foundation Models, 코드로 한 입

Apple의 온디바이스 모델은 타입 안전한 구조화 출력이 강점이다. Swift 구조체에 @Generable 매크로만 붙이면, 모델 출력이 그 타입에 맞게 강제된다.

hljs language-swift

import FoundationModels

@Generable
struct Recipe {
    let title: String
    let ingredients: [String]
    let minutes: Int
}

// 내장 온디바이스 모델 호출 — 토큰 과금 없음, 오프라인 동작
let session = LanguageModelSession()
let recipe = try await session.respond(
    to: "냉장고에 달걀·토마토·치즈가 있어. 10분 요리 추천해줘.",
    generating: Recipe.self
)
print(recipe.title, recipe.minutes)

JSON을 파싱하다 깨질 일이 없다 — 제약 디코딩(constrained decoding)으로 항상 유효한 Recipe가 나온다. 이게 온디바이스 AI를 실제 제품에 쓰게 만드는 실용적 디테일이다.

현장 사례: 데이터센터 없이 비행기를 고치다

엣지 AI가 실제로 돈을 버는 현장을 보자. 스타트업 webAI는 LLM을 Mac·iPad·아이폰에서 로컬로 돌린다. Apple은 2025년 M4 MacBook Air에서 220억(22B) 파라미터 webAI 모델이 로컬로 도는 것을 공개 시연했다.

✈

현장 문제

항공 정비사가 수천 페이지짜리 매뉴얼에서 답을 찾아야 한다. 격납고·활주로엔 안정적 인터넷이 없고, AOG(운항 불가) 상태에선 1분이 곧 큰돈이다.

📱

엣지 해법

매뉴얼을 학습한 모델이 iPad·Mac에서 완전 오프라인으로 동작. 자연어로 묻고 즉시 답을 얻는다. 데이터는 기내·격납고를 떠나지 않는다.

⏱

결과

매뉴얼 검색 시간 단축, 네트워크·클라우드 비용 0. (webAI의 검증된 항공 사례로는 컴퓨터비전 기반 정비 검증이 공개돼 있다.)

이런 "주권형(sovereign) AI" — 데이터와 모델을 내 기기·내 조직 안에 두는 방식 — 은 의료·법률·국방·제조처럼 데이터를 밖으로 내보낼 수 없는 산업에서 특히 강력하다.

에필로그: 인텔리전스는 작아지고 있다

다시 처음의 두 갈래 길로 돌아오자.

한쪽에는 더 크게, 더 중앙으로 — 수천억 달러짜리 데이터센터를 짓는 빅테크가 있다. 다른 쪽에는 더 작게, 더 끝으로 — 이미 사용자 손에 있는 수십억 대 기기를 깨우려는 Apple이 있다.

어느 쪽이 옳은지는 아직 모른다. 풀 Gemini를 자체 서버로 못 돌려 Google·Nvidia에 기댄 2026년의 Apple은, 순수한 온디바이스 이상주의에서 현실적 하이브리드로 이미 한발 물러섰다. 진실은 "기기냐 클라우드냐"가 아니라 "무엇을 어디서"라는, 더 지루하지만 더 정확한 답에 가깝다.

그럼에도 한 가지 흐름은 분명하다. 모델은 작아지고 있고, 똑똑해지고 있다. 어제는 데이터센터가 필요했던 일이, 오늘은 노트북에서 671B로 돌고, 내일은 주머니 속 3B로 충분해질 것이다. 진자는 다시 끝(엣지)으로 움직이고 있다.

WWDC 2026의 무대에서 Apple이 무엇을 보여주든, 그 밑에 깔린 베팅은 이것이다 — 가장 개인적인 AI는, 가장 개인적인 기기 안에 있다.

한 장 요약 — 이 글의 핵심

1. 온디바이스 AI = 기기 안에서 도는 AI. 프라이버시·지연·비용·오프라인이 강점, 품질·전력·파편화가 약점.
2. 컴퓨팅은 메인프레임→PC→클라우드→엣지로 도는 진자. 2017년 모바일 NPU 탄생으로 엣지 AI가 시작.
3. Apple Neural Engine: 0.6 TOPS(2017) → 38 TOPS(2024), 63배. 통합 메모리로 Mac에 671B까지.
4. Apple Intelligence는 온디바이스 3B + Private Cloud Compute 하이브리드. BBC 참사·Siri 연기로 휘청.
5. 2026년: 풀 Gemini(1.2조)를 Google·Nvidia 힘으로, 그 지식을 증류해 기기로 내린다.
6. 실무: 민감·가벼움·반복 → 온디바이스 / 지식·추론 → 클라우드 / 대부분 → 하이브리드.

본 글은 코어닷투데이가 정리한 온디바이스 AI 특집입니다. 수치와 인용은 2026년 6월 기준 공개 보도·1차 자료에 근거했으며, Gemini 실행 위치와 새 Siri 출시 시점처럼 보도가 엇갈리는 사안은 양측 입장을 병기했습니다. 일부 추정치(예: $50B "사용자가 사준 컴퓨팅", Apple의 Liquid AI 인수 검토)는 단정이 아닌 추정·검토 단계임을 밝힙니다.

특집2026.06.20

Apple의 역(逆)베팅: 데이터센터 대신 당신의 주머니 — 온디바이스 AI 완전 해부

프롤로그: 같은 미래를 향한 두 갈래 길

1장. 클라우드 AI vs 온디바이스 AI — 5분 만에 끝내는 기본기

두 단어부터 정리하자

왜 굳이 기기에서? — 네 가지 이유

그런데 왜 다 기기에서 안 하는가? — 정직한 한계

2장. 추의 진자 — 컴퓨팅은 언제나 중앙과 끝을 오간다

50년을 관통하는 한 가지 패턴

2017년 — 모바일 AI 실리콘이 태어난 해

0.6에서 38로 — 7년간 63배 커진 주머니 속 두뇌

3장. Apple Silicon이 특별한 이유 — "통합 메모리"라는 비밀병기

큰 모델을 기기에 올리는 진짜 관문은 '메모리'

실화: Mac Studio 한 대에 6,710억 파라미터 모델 올리기

Apple의 온디바이스 SW 4종 세트

4장. Apple Intelligence — 영광, 그리고 굴욕의 18개월

2024년 6월: 화려한 출발

그리고 흔들리기 시작했다

5장. 하이브리드 설계의 교과서 — 온디바이스 3B + Private Cloud Compute

모든 질문을 같은 곳으로 보내지 않는다

Private Cloud Compute — "클라우드인데 기기처럼 안전하게"

6장. 2026년의 대반전 — Google·Nvidia와 손잡은 Apple

풀 Gemini는 Apple 서버에서 안 돌아갔다

Nvidia 컨피덴셜 컴퓨트 — 프라이버시를 클라우드로 확장하기

그리고 진짜 장기 포석: 증류

7장. 작은 모델은 어떻게 만들어지는가 — 증류·양자화·LoRA

비유: 백과사전을 요약 노트로

직접 해보는 모델 다이어트

Apple의 실제 레시피 (2025 테크 리포트)

8장. 돈의 논리 — "사용자가 사준 컴퓨팅" $50B

군비경쟁의 청구서

토큰 경제학 — 영원히 반복되는 청구서

그리고 결정적 한 방: 사용자가 이미 사준 컴퓨팅

9장. 경쟁 지형 — Apple만 엣지로 가는 게 아니다

10장. 실무 가이드 — 당신의 프로젝트는 어디서 돌려야 하나

의사결정 휴리스틱

손에 잡히는 도구들

Foundation Models, 코드로 한 입

현장 사례: 데이터센터 없이 비행기를 고치다

에필로그: 인텔리전스는 작아지고 있다

관련 포스트

로컬 AI는 '열등한 Opus'가 아니다: 내 컴퓨터 속 모델은 완전히 다른 연장이다

AI가 빨라졌다는 착각을 어떻게 재나 — 89%가 '빨라졌다'는데 6%만 증명하는 생산성의 역설, 그리고 DX Core 4

부러진 사다리 — 오늘 주니어를 안 뽑으면, 2031년엔 시니어가 없다: AI가 끊어버린 견습의 고리

하루 15,000개의 질문에 답하는 사내 AI — Cerebras는 지식 베이스를 어떻게 만들었나