AI 추론양자화프루닝지식 증류TensorRTONNX모델 경량화엣지 AI

70B 모델을 스마트폰에서 돌린다 — AI 추론 최적화의 모든 것

GPT급 거대 모델을 실시간으로, 저비용으로, 심지어 스마트폰에서도 돌리려면? 양자화, 프루닝, 지식 증류, 컴파일러 최적화까지 — AI 추론 최적화의 핵심 기법들을 실전 사례와 함께 총정리한다.

코어닷투데이2026-02-1558분

들어가며: 70만 달러가 매일 증발한다

OpenAI는 ChatGPT 운영에 하루 70만 달러 이상의 추론 비용을 지출하는 것으로 알려져 있다. 사용자 한 명이 질문 하나를 던질 때마다 약 $0.01의 컴퓨팅 비용이 발생한다. 별것 아닌 것 같지만, 주간 활성 사용자가 9억 명을 넘어서고 하루 수십억 건의 쿼리가 쏟아지는 상황에서 이 비용은 연간 수십억 달러 규모로 불어난다.

GPT-4를 한 번 학습시키는 데 약 $6,300만이 들었다고 한다. 비싸다. 하지만 학습은 한 번이다. 반면 추론은 서비스가 살아있는 한 영원히 계속된다. AI 기업의 진짜 전쟁터는 학습이 아니라 추론이다.

70만 달러가 매일 증발한다 — ChatGPT 추론 비용의 충격적 규모

이 글은 그 전쟁의 무기들을 총정리한다.

학습 vs 추론: 근본적으로 다른 게임

학습(Training) vs 추론(Inference)

학습 (Training) 일회성 투자 수천 GPU × 수주~수개월. 기울기 계산, 역전파. FP32/BF16 정밀도 필요. 비용:

수천만~

수억

추론 (Inference) 영구 운영 비용 순전파만. 낮은 정밀도 가능. 지연시간·처리량이 핵심. 비용: $수십억/년 (대규모 서비스)

학습 vs 추론 — 일회성 투자와 영구 운영 비용의 근본적 차이

학습에서는 정확도가 전부다. GPU를 아무리 많이 써도, 더 좋은 모델을 만들면 그만이다. 하지만 추론에서는 속도, 비용, 전력, 메모리 네 가지를 동시에 최적화해야 한다. 여기에 모델 품질까지 유지해야 하니, 최적화는 다차원 문제가 된다.

추론 최적화가 중요한 네 가지 이유

1. 비용 절감: 클라우드 GPU 청구서와의 전쟁

GPT-4 API 가격의 변화를 보자:

GPT-4 API 가격 변화 (백만 토큰당 입력 비용)

2023.03

$30.00

2023.11

$10.00

2024.05

$2.50

2024.07

$0.15

3년 만에 200배 가격 하락. 이 뒤에는 이 글에서 다루는 기술들이 있다.

2. 지연시간 감소: 실시간 애플리케이션

자율주행차가 보행자를 인식하는 데 500ms가 걸린다면? 대화형 AI가 답변에 10초가 걸린다면? 추론 지연은 곧 사용자 경험의 붕괴다. 음성 비서, 실시간 번역, 코딩 어시스턴트 모두 100ms 이하의 응답을 요구한다.

3. 엣지 배포: 스마트폰, IoT, 자율주행

클라우드 없이 디바이스에서 직접 AI를 돌리려면, 70B 모델을 수 GB로 줄여야 한다. 스마트폰의 RAM은 8~12GB, 자동차 ECU는 그보다 적다. 모델을 디바이스에 맞추는 것이 추론 최적화의 핵심 과제다.

4. 에너지 효율: 환경적 책임

2026년 기준, AI 데이터센터의 전력 소비는 전 세계 전력의 2~3%에 달하며 급증 중이다. 추론 한 번의 에너지를 절반으로 줄이면, 그 효과는 수십억 번 곱해진다.

1부: 양자화(Quantization) — 숫자의 정밀도를 줄여 모델을 가볍게

핵심 원리

신경망의 가중치는 보통 FP32(32비트 부동소수점)로 저장된다. 양자화는 이 정밀도를 FP16, INT8, INT4, 심지어 1~2비트까지 낮추는 기술이다.

수학적으로 보면, 연속적인 실수 범위 $[r_{\min}, r_{\max}]$ 를 이산적인 $2^b$ 개의 값으로 매핑하는 것이다 ( $b$ 는 비트 수):

$q = \text{round}\!\left(\frac{r - r_{\min}}{r_{\max} - r_{\min}} \cdot (2^b - 1)\right)$

역양자화(dequantization)는 이 정수 값을 다시 실수로 되돌린다:

$\hat{r} = q \cdot \frac{r_{\max} - r_{\min}}{2^b - 1} + r_{\min}$

직관적으로 비유하면, 고해상도 사진을 JPEG로 압축하는 것과 같다. 파일 크기는 크게 줄지만, 사람 눈에는 거의 차이가 없다.

양자화는 JPEG 압축과 같다 — 정밀도를 줄여도 품질은 유지

정밀도별 모델 크기 비교

Llama 70B를 예로 들어보자:

Llama 70B — 정밀도별 메모리 사용량

FP32

280 GB

A100 × 4장

FP16

140 GB

A100 × 2장

INT8

70 GB

A100 × 1장

INT4

~35 GB

RTX 4090 가능!

FP32에서 INT4로 바꾸면 메모리가 8분의 1로 줄어든다. 280GB짜리 모델이 35GB가 되어 소비자용 GPU 한 장에 올라간다.

PTQ vs QAT: 두 가지 접근법

양자화 방법론 비교

PTQ (Post-Training Quantization) 학습 후 양자화 이미 학습된 모델을 사후적으로 양자화. 빠르고 간편하지만 낮은 비트에서 정확도 손실 가능

QAT (Quantization-Aware Training) 양자화 인식 학습 학습 과정에서 양자화 효과를 시뮬레이션. 더 높은 정확도 유지. 학습 비용 추가

PTQ는 "이미 만들어진 케이크를 작은 상자에 담는 것"이고, QAT는 "처음부터 작은 상자에 맞게 케이크를 만드는 것"이다. QAT가 품질이 더 좋지만, PTQ가 훨씬 실용적이라 대부분의 오픈소스 모델은 PTQ로 양자화된다.

주요 양자화 포맷들

주요 양자화 기법과 포맷

GPTQ Frantar et al., ICLR 2023 헤시안 기반 원샷 양자화. GPT-175B를 3~4비트로, GPU 4시간 내. GPU 추론에 최적

AWQ Lin et al., MLSys 2024 Best Paper 활성화 기반 중요 채널 보호. GPTQ 대비 정확도 우위. MIT Han Lab

GGUF / llama.cpp Georgi Gerganov, 2023 CPU/소비자 GPU에서 LLM 실행. Q4_K_M, Q5_K_M 등 세분화된 양자화 레벨. GitHub 91K+

SmoothQuant Xiao et al., ICML 2023 양자화 난이도를 활성화에서 가중치로 이전. W8A8 실현. 서버 추론에 적합

llama.cpp는 특별히 언급할 가치가 있다. 불가리아 개발자 게오르기 게르가노프가 2023년 3월에 공개한 이 프로젝트는 순수 C/C++로 LLaMA를 실행하며, 어떤 의존성도 필요 없다. 이것이 "노트북에서 LLM 돌리기" 혁명의 시작이었다. 2023년 8월 도입된 GGUF 포맷은 양자화 모델 배포의 사실상 표준이 되었다.

극한의 양자화: BitNet b1.58 (1.58비트)

2024년, Ma et al.이 발표한 "The Era of 1-bit LLMs"는 AI 커뮤니티에 충격을 주었다. 가중치를 $\{-1, 0, +1\}$ 세 가지 값으로만 제한하는 것이다. $\log_2 3 \approx 1.58$ 비트이므로 "1.58비트 양자화"라 불린다.

$W_{ij} \in \{-1, 0, +1\}$

이론적으로 행렬 곱셈이 덧셈과 뺄셈만으로 대체된다. 곱셈 연산이 필요 없으니 에너지 소비가 극적으로 줄어든다. 3B 규모에서 FP16 대비 메모리 10배 절감, 에너지 71배 절감이라는 결과가 보고되었다. 아직 대규모 모델에서의 검증이 필요하지만, 미래 양자화의 방향을 제시하는 연구다.

2부: 프루닝(Pruning) — 불필요한 가지를 잘라내다

핵심 원리

신경망의 가중치 중 상당수는 0에 가깝거나 중복적이다. 나무의 가지치기처럼, 이런 가중치를 제거해도 모델의 성능은 거의 변하지 않는다.

프루닝은 가지치기 — 신경망의 불필요한 연결을 잘라낸다

원본 모델 (Dense)

→

중요도 평가

→

가지치기 (Pruning)

→

미세조정 (선택)

비구조적 vs 구조적 프루닝

프루닝 방식 비교

비구조적 프루닝 (Unstructured) 개별 가중치 제거 높은 압축률 가능 (90%+). 하지만 희소 행렬 연산이 필요하여 실제 속도 향상이 제한적

구조적 프루닝 (Structured) 뉴런/헤드/레이어 단위 제거 압축률은 낮지만, 표준 하드웨어에서 실제 속도 향상. 별도의 희소 연산 불필요

비구조적 프루닝은 가중치 행렬에서 개별 원소를 0으로 만든다. 이론적으로 90% 이상 제거해도 성능이 유지될 수 있지만, GPU는 밀집 행렬 연산에 최적화되어 있어 실제 속도 이점이 적다. 반면 구조적 프루닝은 어텐션 헤드, 뉴런, 심지어 레이어 전체를 제거하므로 표준 GPU에서 즉시 속도가 빨라진다.

복권 가설 (The Lottery Ticket Hypothesis)

2019년, Frankle과 Carlin이 ICLR에서 발표한 이 논문은 Best Paper를 수상하며 프루닝 연구에 새로운 방향을 제시했다.

"무작위로 초기화된 밀집 신경망 안에는, 독립적으로 학습시켜도 원본과 동일한 성능에 도달하는 희소 부분 네트워크('당첨 복권')가 존재한다."

직관적으로 말하면, 거대한 네트워크는 수많은 복권을 한꺼번에 산 것과 같다. 그중 "당첨 복권"에 해당하는 소수의 연결만 있으면 원본과 같은 성능을 낼 수 있다. 문제는 어떤 것이 당첨 복권인지 사전에 알 수 없다는 점이다.

복권 가설 — 거대한 네트워크 속에 숨은 소수의 당첨 복권

SparseGPT: 대규모 LLM 프루닝의 돌파구

Frantar와 Alistarh가 2023년 ICML에서 발표한 SparseGPT는 대규모 언어 모델에 프루닝을 성공적으로 적용한 첫 사례다:

OPT-175B와 BLOOM-176B를 50% 희소화 — 재학습 없이, 단일 GPU에서 4.5시간
60% 비구조적 희소화에서도 퍼플렉시티 손실이 미미
NVIDIA 2:4 구조적 희소성과 결합하면 하드웨어 가속까지 가능

NVIDIA A100/H100의 Sparse Tensor Core는 4개 연속 값 중 2개가 0인 2:4 희소 패턴을 하드웨어에서 직접 가속한다. 이론적 2배 처리량, 실측 30%+ 성능/와트 개선.

SparseGPT — 희소화율별 퍼플렉시티 변화 (OPT-175B, WikiText-2)

원본 (0%)

8.34

기준

50% 희소

8.72

+4.6%

60% 희소

9.58

+14.9%

2:4 구조적

9.13

HW 가속 가능

3부: 지식 증류(Knowledge Distillation) — 거인의 지혜를 난쟁이에게

Hinton의 "어둠의 지식" (2015)

2015년, Geoffrey Hinton, Oriol Vinyals, Jeff Dean이 발표한 "Distilling the Knowledge in a Neural Network"는 지식 증류의 기초를 세웠다.

핵심 아이디어: 어둠의 지식 (Dark Knowledge)

고양이 사진에 대해 교사 모델이 "고양이 99%, 개 0.5%, 호랑이 0.3%"라고 출력했다면,
"개보다 호랑이와 더 비슷하다"는 정보가 이 부드러운 확률 분포 안에 숨어 있다.
정답 라벨("고양이 100%")만으로는 절대 알 수 없는 정보 — 이것이 "어둠의 지식"이다.

교사 모델의 softmax 출력을 높은 온도

T

로 "부드럽게" 만들어 학생에게 전달한다:

p_i = \dfrac{\exp(z_i / T)}{\sum_j \exp(z_j / T)}

T

가 높을수록 확률 분포가 균등해져서, 클래스 간의 관계 정보가 더 풍부하게 드러난다.

지식 증류 — 거인 교사 모델이 학생 모델에게 어둠의 지식을 전수한다

Teacher-Student 프레임워크

교사 모델 (대형, 고성능)

↓ 소프트 라벨 전달

학생 모델 (소형, 경량)

←

하드 라벨 (정답)

↓

손실 = α · 소프트 손실 + (1-α) · 하드 손실

학생 모델은 두 가지 신호를 동시에 받아 학습한다. 정답 라벨에서 오는 "하드 손실"과, 교사 모델의 출력 분포에서 오는 "소프트 손실"이다. 두 손실의 비율은 하이퍼파라미터 $\alpha$ 로 조절한다.

증류의 성공 사례

지식 증류 주요 성공 사례

DistilBERT (2019) Hugging Face BERT의 97% 성능, 40% 작고 60% 빠름. 엣지 배포의 표준

Alpaca (2023) Stanford LLaMA 7B + GPT-3.5 데이터 52K. 비용 $500 이하

Phi-3-mini (2024) Microsoft 3.8B가 Mixtral 8x7B에 필적. iPhone에서 12+ tok/s

DeepSeek-R1 증류 (2025) DeepSeek 671B 교사 → 7B 학생이 32B 경쟁 모델 능가. 80만 추론 샘플 활용

DeepSeek-R1의 사례는 특히 주목할 만하다. 671B MoE 교사 모델이 생성한 80만 개의 추론 중심 샘플로 7B~70B 학생 모델을 학습시켰는데, 7B 증류 모델이 AIME 2024 수학 벤치마크에서 55.5%를 기록하며 32B 모델을 능가했다. 학생이 스승보다 효율적이 된 것이다.

4부: KV Cache 최적화 — LLM 추론의 숨겨진 병목

KV Cache란 무엇인가

Transformer는 매 토큰 생성 시 이전 모든 토큰의 Key와 Value를 참조해야 한다. 이를 매번 다시 계산하면 낭비이므로, 계산 결과를 KV Cache에 저장한다. 문제는 시퀀스가 길어질수록 이 캐시가 급격히 커진다는 것이다.

70B 모델이 4096 토큰 시퀀스를 처리할 때 KV Cache만 수십 GB를 차지할 수 있다. 배치 크기를 늘릴수록 문제는 더 심각해진다. 모델 가중치보다 KV Cache가 더 큰 메모리를 잡아먹는 상황이 발생한다.

KV Cache 메모리 폭증 — Transformer 추론의 숨겨진 병목

어텐션 구조의 진화

MHA (Multi-Head Attention) → MQA (Multi-Query Attention) → GQA (Grouped-Query Attention)

MHA (Multi-Head Attention): 원래 Transformer 구조. 각 헤드가 독립적인 K, V를 가짐. KV Cache가 가장 큼.
MQA (Multi-Query Attention): 모든 헤드가 하나의 K, V를 공유. KV Cache가 헤드 수만큼 줄어듦. 하지만 품질 저하 발생.
GQA (Grouped-Query Attention): 헤드를 그룹으로 묶어 그룹 내에서 K, V를 공유. MHA의 품질과 MQA의 효율 사이의 균형. Llama 2 70B, Llama 3, Gemma 등에서 채택.

Llama 2 70B에서 GQA를 적용하면 MHA 대비 KV Cache가 8분의 1로 줄어든다.

PagedAttention과 vLLM: 메모리의 혁명

vLLM — PagedAttention (UC Berkeley, SOSP 2023)

Kwon et al., "Efficient Memory Management for Large Language Model Serving with PagedAttention"

기존 방식의 문제: 각 요청에 시퀀스 최대 길이만큼 KV Cache를 미리 할당 → 평균 60~80%가 낭비.

해법: OS의 가상 메모리/페이징에서 영감. KV Cache를 고정 크기 블록(페이지) 단위로 비연속 저장.
요청이 실제로 사용하는 만큼만 할당, 종료 시 즉시 반환. 요청 간 공유도 가능.

결과: 기존 대비 2~4배 처리량 향상, 연속 배칭과 결합 시 최대 23배

5부: 투기적 디코딩(Speculative Decoding) — 작은 모델이 먼저 달린다

핵심 아이디어

LLM의 자기회귀 디코딩은 순차적이다. 토큰 하나를 생성하려면 전체 모델을 한 번 순전파해야 한다. 70B 모델에서 이것은 느리다.

투기적 디코딩의 발상은 간단하다: 작은 드래프트 모델이 먼저 빠르게 $N$ 개의 토큰을 "추측"하고, 큰 타겟 모델이 이를 한 번의 순전파로 동시에 검증한다.

투기적 디코딩 — 작은 모델이 앞서 달리고 큰 모델이 한 번에 검증한다

드래프트 모델 (1~7B, 빠름)

↓ N개 토큰 추측 생성

타겟 모델 (70B, 정확함)

↓ 한 번의 순전파로 N개 동시 검증

맞으면 채택 / 틀리면 해당 지점에서 타겟 모델 토큰으로 교체

핵심은 출력 분포가 타겟 모델과 수학적으로 동일하다는 것이다. 품질 손실이 전혀 없이 2~3배 속도 향상을 얻는다. TensorRT-LLM에서는 최대 3.6배 속도 향상이 보고되었다.

채택률(acceptance rate)이 핵심 지표다. 드래프트 모델이 타겟 모델과 비슷한 분포를 가질수록 채택률이 높아지고, 속도 향상이 커진다. 일반적으로 같은 아키텍처 계열(예: Llama 70B + Llama 7B)이면 채택률이 높다.

6부: 컴파일러 및 런타임 최적화

추론 엔진이 하는 일

모델을 학습 프레임워크(PyTorch) 그대로 실행하면 최적화 기회를 많이 놓친다. 추론 엔진은 계산 그래프를 분석해 연산을 재배치, 병합, 최적화하여 하드웨어 성능을 극한까지 끌어낸다.

주요 추론 엔진

TensorRT-LLM NVIDIA, 2023~ NVIDIA GPU 전용. 커널 융합, 인플라이트 배칭, FP8 지원. H100에서 10K+ tok/s

ONNX Runtime Microsoft, 2018~ 크로스 플랫폼. CPU, CUDA, TensorRT, CoreML, OpenVINO 등 지원. 범용 표준

Apache TVM Apache Foundation 자동 커널 튜닝. 모바일/엣지 특화. 타겟 하드웨어에 맞춤 최적화

torch.compile PyTorch 2.0+, 2023~ 한 줄 추가로 평균 30~50% 속도 향상. Triton 백엔드. 점진적 도입 가능

핵심 최적화 기법들

커널 융합(Kernel Fusion): GPU에서 연산 하나를 실행할 때마다 커널 실행 오버헤드가 발생한다. 여러 연산을 하나의 커널로 병합하면 이 오버헤드를 없앨 수 있다. 예를 들어 LayerNorm + Linear + GELU를 하나의 커널로 합치면, 중간 결과를 GPU 메모리에 썼다 읽는 비용이 사라진다.

연산자 최적화(Operator Optimization): FlashAttention이 대표적이다. Tri Dao가 2022년에 발표한 FlashAttention은 어텐션 계산을 타일 단위로 쪼개어 GPU의 SRAM에서 처리함으로써, 메모리 접근을 최소화한다. 표준 어텐션 대비 2~4배 빠르고, 시퀀스 길이에 대해 메모리를 $O(N^2)$ 에서 $O(N)$ 으로 줄인다.

$\text{FlashAttention}: O(N^2) \text{ memory} \rightarrow O(N) \text{ memory}$

7부: 하드웨어 전쟁 — 추론의 왕좌를 두고

2026년 추론 하드웨어 지형도

2026년 주요 추론 하드웨어

NVIDIA B200 192GB HBM3e, 8 TB/s H100 대비 LLM 추론 최대 15배 향상. FP4 지원. 데이터센터 왕좌

NVIDIA H200 141GB HBM3e, 4.8 TB/s H100 대비 추론 37% 향상. 현재 가장 널리 배포된 최신 GPU

Google TPU Ironwood 192GB HBM3e, 7.4 TB/s 최초의 추론 전용 TPU. 칩당 4.6 PFLOPS. Google 내부 서비스 최적화

AMD MI300X 192GB HBM3, 5.3 TB/s H100 대비 메모리 대역폭 60% 우위. 가격 경쟁력. NVIDIA 대안으로 부상

Groq LPU SRAM 기반, 결정론적 실행 LLaMA 3 70B: 280~300 tok/s. GPU 대비 10배 에너지 효율. 배치 1 추론 특화

Cerebras WSE-3 4조 트랜지스터, 44GB SRAM LLaMA 3.1 405B: 969 tok/s. 웨이퍼 스케일. HBM 병목 자체를 제거

하드웨어 전쟁 — NVIDIA · Google TPU · AMD · Groq · Cerebras의 경쟁

엣지 AI 하드웨어

온디바이스 AI 하드웨어

Apple Neural Engine M4: 38 TOPS, A18: 35 TOPS Apple Intelligence 전담. 통합 메모리 활용. iOS/macOS 에코시스템 장악

Qualcomm Hexagon NPU Snapdragon 8 Elite: 75 TOPS Android 생태계 지배. INT4 가속. Galaxy AI, Copilot+ PC

추론 하드웨어의 핵심 지표는 컴퓨팅 처리량이 아니라 메모리 대역폭이다. LLM 추론은 연산보다 메모리 접근이 병목(memory-bound)이기 때문이다. 이것이 SRAM 기반의 Groq이나 Cerebras가 기존 GPU보다 토큰 생성 속도에서 우위를 보이는 이유다.

8부: 프레임워크와 도구 생태계

추론 최적화 도구 생태계

vLLM UC Berkeley PagedAttention, 연속 배칭. 프로덕션 서빙의 사실상 표준. GitHub 50K+

TGI (Text Generation Inference) Hugging Face HF 생태계 연동. 텐서 병렬, 양자화 지원. API 서빙에 최적

llama.cpp Georgi Gerganov 순수 C/C++. 의존성 제로. CPU/GPU/NPU. 로컬 추론의 표준. GitHub 91K+

Ollama llama.cpp 기반 Docker 스타일 CLI. "ollama run llama3" 한 줄로 실행. 개발자 친화적

MLX Apple, 2023 Apple Silicon 최적화. 통합 메모리 활용. macOS에서 가장 빠른 로컬 추론

ExecuTorch Meta, 2024 50KB 런타임. Instagram, WhatsApp에서 수십억 사용자 서비스 중

9부: 실전 사례 연구

Meta: Llama를 어떻게 대규모로 서빙하는가

Meta는 Llama 3를 내부적으로 Instagram, Facebook, WhatsApp 등에서 서빙한다. 핵심 전략:

GQA(Grouped-Query Attention) 으로 KV Cache 메모리 절감
INT4 양자화 + FP8 KV Cache로 메모리 최적화
ExecuTorch로 모바일 기기에서 실시간 추론
투기적 디코딩으로 서버 추론 2~3배 가속

Apple Intelligence: 온디바이스 AI의 정석

Apple은 2024년부터 Apple Intelligence라는 이름으로 모든 기기에 AI를 내장하기 시작했다:

서버 모델: Apple의 자체 LLM, Private Cloud Compute에서 실행
온디바이스 모델: ~3B 파라미터, 4비트 양자화 → 약 1.5GB
Neural Engine 전용 최적화: Core ML + ANE 가속
어댑터(LoRA) 기반 태스크 전환: 기본 모델 하나 + 용도별 경량 어댑터

Apple 온디바이스 모델 — 양자화 효과

FP16 원본

~6 GB

INT4 양자화

~1.5 GB

iPhone 15 Pro+

Tesla FSD: 자율주행의 추론 파이프라인

Tesla의 Full Self-Driving은 8개의 카메라에서 들어오는 영상을 실시간으로 처리해야 한다. 지연시간이 곧 안전이다:

차량 내 HW4 칩 (Samsung 7nm, 50 TOPS)
INT8 양자화 + 구조적 프루닝
카메라 입력 → BEV(Bird's Eye View) 변환 → 경로 계획까지 ~50ms
클라우드 의존 없이 완전 온디바이스 추론

Samsung Galaxy AI: 스마트폰 위의 LLM

Galaxy S24부터 도입된 Galaxy AI는 온디바이스 LLM을 탑재했다:

Qualcomm Snapdragon 8 Gen 3의 Hexagon NPU (75 TOPS)
Samsung 자체 경량 모델 + INT4 양자화
통화 실시간 번역, 문서 요약, 이미지 생성이 모두 디바이스에서
클라우드 연결 없이도 핵심 기능 동작

10부: 추론 최적화 스택 — 모델에서 하드웨어까지

실전에서는 단일 기법이 아니라 전체 스택에 걸친 최적화가 적용된다:

레이어 5: 모델 아키텍처

↓

MoE, GQA, 깊이 축소, 어텐션 변형

↓

레이어 4: 모델 압축

↓

양자화, 프루닝, 지식 증류

↓

레이어 3: 알고리즘 최적화

↓

FlashAttention, 투기적 디코딩, KV Cache 최적화

↓

레이어 2: 시스템 최적화

↓

커널 융합, 연속 배칭, PagedAttention, 텐서 병렬

↓

레이어 1: 하드웨어

↓

GPU (H200/B200), TPU, NPU, LPU, 전용 ASIC

실전 최적화 레시피 예시

70B 모델을 프로덕션에 배포하는 전형적인 파이프라인:

학습된 70B 모델 (FP32, ~280GB)

↓

지식 증류 → 8B 학생 모델

↓

AWQ INT4 양자화 → ~4GB

↓

vLLM + FlashAttention + 투기적 디코딩

↓

결과: 원본 대비 70배 작고, 10배 빠르고, 성능 90%+ 유지

11부: 미래의 추론 최적화

Mixture of Experts (MoE): 이미 현재

MoE는 "추론 최적화"라기보다 "효율적 아키텍처 설계"에 가깝지만, 결과적으로 추론 비용을 극적으로 줄인다. GPT-4(추정 1.8T 파라미터)가 토큰당 222B만 활성화하는 것이 대표적이다. 총 파라미터 대비 실제 연산량이 $\frac{1}{8}$ 에 불과하다.

$\text{MoE 효율} = \frac{\text{활성 파라미터}}{\text{총 파라미터}} = \frac{222B}{1.8T} \approx 12\%$

하드웨어-소프트웨어 공동 설계

과거에는 하드웨어가 먼저 나오고 소프트웨어가 적응했다. 이제는 반대다. 모델 구조에 맞게 칩을 설계한다:

NVIDIA의 FP4/FP8 지원은 양자화 연구에 맞춘 것
Groq의 SRAM 기반 아키텍처는 자기회귀 디코딩의 특성에 최적화
Google의 Ironwood TPU는 "추론 전용"으로 학습과 분리

포토닉 컴퓨팅: 빛으로 행렬을 곱한다

아직 초기 단계이지만, 광학 프로세서는 행렬 곱셈을 빛의 간섭으로 수행한다. 전자 대신 광자를 사용하면:

에너지 소비가 수십~수백 배 감소
지연시간이 광속으로 단축
Lightmatter, Luminous Computing 등의 스타트업이 연구 중

상용화까지는 시간이 걸리겠지만, 현재 반도체 미세공정의 물리적 한계가 다가오고 있다는 점에서 대안 컴퓨팅 패러다임은 반드시 필요하다.

비용 비교: 추론 최적화 전후

Llama 70B 서빙 — 최적화 기법별 비용 절감 효과 (상대적)

기본 (FP16)

$1.00

+ INT8 양자화

$0.55

+ INT4 양자화

$0.32

+ vLLM 배칭

$0.15

+ 투기적 디코딩

$0.08

개별 기법의 절감 효과는 30~50%일 수 있지만, 스택 전체에 걸쳐 적용하면 누적 효과는 10배 이상이 된다.

맺으며: 추론 최적화가 AI 민주주의를 만든다

2023년 초, 70B 모델을 실행하려면 A100 80GB가 여러 대 필요했다. 2026년, 양자화된 8B 증류 모델이 스마트폰에서 실시간으로 돌아간다. GPT-4 API 가격은 200배 떨어졌다.

이 모든 변화의 공통 분모는 추론 최적화다:

양자화가 모델을 8배 작게 만들고
프루닝이 불필요한 연결을 제거하고
지식 증류가 거인의 지혜를 작은 모델에 이식하고
FlashAttention과 투기적 디코딩이 추론을 수배 빠르게 하고
vLLM의 PagedAttention이 메모리를 효율적으로 관리하고
TensorRT-LLM이 하드웨어 성능을 극한까지 끌어낸다

학습이 AI를 만드는 기술이라면, 추론 최적화는 AI를 모든 사람에게 전달하는 기술이다. 세상에서 가장 뛰어난 모델도, 실행할 수 없으면 의미가 없다.

추론 최적화는 그 벽을 허문다 — 데이터센터에서 노트북으로, 클라우드에서 주머니 속 스마트폰으로. 70B 모델이 주머니에 들어가는 시대, 그것이 지금이다.

AI 민주주의 — 70B 모델이 주머니 속 스마트폰에서 작동하는 시대

기술2026.04.02

70B 모델을 스마트폰에서 돌린다 — AI 추론 최적화의 모든 것

들어가며: 70만 달러가 매일 증발한다

학습 vs 추론: 근본적으로 다른 게임

추론 최적화가 중요한 네 가지 이유

1. 비용 절감: 클라우드 GPU 청구서와의 전쟁

2. 지연시간 감소: 실시간 애플리케이션

3. 엣지 배포: 스마트폰, IoT, 자율주행

4. 에너지 효율: 환경적 책임

1부: 양자화(Quantization) — 숫자의 정밀도를 줄여 모델을 가볍게

핵심 원리

정밀도별 모델 크기 비교

PTQ vs QAT: 두 가지 접근법

주요 양자화 포맷들

극한의 양자화: BitNet b1.58 (1.58비트)

2부: 프루닝(Pruning) — 불필요한 가지를 잘라내다

핵심 원리

비구조적 vs 구조적 프루닝

복권 가설 (The Lottery Ticket Hypothesis)

SparseGPT: 대규모 LLM 프루닝의 돌파구

3부: 지식 증류(Knowledge Distillation) — 거인의 지혜를 난쟁이에게

Hinton의 "어둠의 지식" (2015)

Teacher-Student 프레임워크

증류의 성공 사례

4부: KV Cache 최적화 — LLM 추론의 숨겨진 병목

KV Cache란 무엇인가

어텐션 구조의 진화

PagedAttention과 vLLM: 메모리의 혁명

5부: 투기적 디코딩(Speculative Decoding) — 작은 모델이 먼저 달린다

핵심 아이디어

6부: 컴파일러 및 런타임 최적화

추론 엔진이 하는 일

핵심 최적화 기법들

7부: 하드웨어 전쟁 — 추론의 왕좌를 두고

2026년 추론 하드웨어 지형도

엣지 AI 하드웨어

8부: 프레임워크와 도구 생태계

9부: 실전 사례 연구

Meta: Llama를 어떻게 대규모로 서빙하는가

Apple Intelligence: 온디바이스 AI의 정석

Tesla FSD: 자율주행의 추론 파이프라인

Samsung Galaxy AI: 스마트폰 위의 LLM

10부: 추론 최적화 스택 — 모델에서 하드웨어까지

실전 최적화 레시피 예시

11부: 미래의 추론 최적화

Mixture of Experts (MoE): 이미 현재

하드웨어-소프트웨어 공동 설계

포토닉 컴퓨팅: 빛으로 행렬을 곱한다

비용 비교: 추론 최적화 전후

맺으며: 추론 최적화가 AI 민주주의를 만든다

관련 포스트

EdgeCrafter 완전 이해: 작은 ViT의 반란 — 태스크 특화 증류로 엣지에서 검출·분할·포즈를 동시에

이미지 객체 인식 완전 가이드: 컴퓨터에게 '보는 법'을 가르친 25년 — 공장에서 자율주행까지

DEIMv2 완전 이해: DINOv3와 만난 실시간 검출 — 0.5M에서 50M까지, 하나의 프레임워크

엣지 AI 완전 가이드: 클라우드 없이 현장에서 추론하는 시대가 열렸다