#양자화
5개의 포스트

Apple의 역(逆)베팅: 데이터센터 대신 당신의 주머니 — 온디바이스 AI 완전 해부
전 세계 빅테크가 데이터센터에 한 해 \$725B를 쏟아붓는 동안, Apple은 정반대로 베팅했다 — 이미 사용자 주머니 속에 있는 수십억 대 기기. 2026년 6월 WWDC를 앞두고 Apple은 15년간 쌓은 자체 실리콘 경험을 무기로 \"클라우드 대신 기기에서\" AI를 돌리는 온디바이스 전략을 전면에 내세운다. 메인프레임→PC→클라우드→엣지로 도는 컴퓨팅의 진자, A11(0.6 TOPS)에서 M4(38 TOPS)까지 63배 커진 Neural Engine, 통합 메모리로 671B 모델을 Mac에 통째로 올리는 법, Apple Intelligence의 영광과 BBC 헤드라인 참사·Siri 연기·\$250M 합의, Private Cloud Compute의 5대 프라이버시 보장, 2026년 Google Gemini 딜과 Nvidia 컨피덴셜 컴퓨트, 증류·양자화·LoRA로 모델을 다이어트시키는 원리, \"사용자가 사준 컴퓨팅\" \$50B 논리, 그리고 개발자·기업을 위한 온디바이스 vs 클라우드 실무 의사결정까지. 인터랙티브 시뮬레이터 3종 포함.

70B 모델을 스마트폰에서 돌린다 — AI 추론 최적화의 모든 것
GPT급 거대 모델을 실시간으로, 저비용으로, 심지어 스마트폰에서도 돌리려면? 양자화, 프루닝, 지식 증류, 컴파일러 최적화까지 — AI 추론 최적화의 핵심 기법들을 실전 사례와 함께 총정리한다.

LoRA / QLoRA 특집: 1,750억 개 파라미터를 35MB로 길들이는 마법
GPT-3 175B를 파인튜닝하려면 1.2TB GPU 메모리가 필요하다. LoRA는 학습 파라미터를 1만 배 줄이고, QLoRA는 65B 모델을 단일 48GB GPU에서 학습 가능하게 만들었다. 저랭크 분해의 수학부터 2026년 모든 오픈소스 모델의 표준이 된 여정까지, 두 논문을 낱낱이 해부한다.

8-bit Adam 특집: 옵티마이저 메모리를 75% 줄인 블록별 양자화의 비밀
Adam 옵티마이저의 상태만 84GB — 모델보다 6배 크다. 2021년, Tim Dettmers는 옵티마이저 상태를 8비트로 압축해 75%를 절약하면서도 32비트와 동일한 학습 품질을 유지하는 방법을 발견했다. 블록별 양자화와 동적 트리 양자화의 원리를 파헤친다.

양자화(Quantization) 완전 해부: 70B 모델을 내 노트북에서 돌리는 마법의 원리
280GB짜리 AI 모델을 35GB로 줄이면서 성능은 97%를 유지한다. 어떻게? FP32에서 INT4까지, BinaryConnect에서 BitNet까지 — 양자화의 역사, 원리, 실전 기법, 그리고 안전성 문제까지 총정리.