#양자화

6개의 포스트

2026.06.20

로컬 AI는 '열등한 Opus'가 아니다: 내 컴퓨터 속 모델은 완전히 다른 연장이다

1만 2천 달러짜리 GPU를 사서 자기 사무실에 AI를 들인 한 엔지니어가 던진 한 문장이 화제가 됐다. '로컬 Qwen은 더 싼 Opus가 아니라, 아예 다른 연장이다.' 대장장이가 칼을 담금질하듯 한순간도 눈을 뗄 수 없는 이 모델은 왜 어떤 일에서는 무너지고 어떤 일에서는 클라우드를 압도할까. 오픈웨이트 AI의 역사부터 트랜스포머·MoE·양자화·투기적 디코딩 같은 핵심 아키텍처, 벤치마크의 함정, 그리고 2026년 데이터 주권의 시대에 로컬 모델이 차지하는 진짜 자리까지 — 쉽고 자세하게 풀어본다.

코어닷투데이46분

Apple의 역(逆)베팅: 데이터센터 대신 당신의 주머니 — 온디바이스 AI 완전 해부

특집온디바이스 AI엣지 AI

2026.06.03

Apple의 역(逆)베팅: 데이터센터 대신 당신의 주머니 — 온디바이스 AI 완전 해부

전 세계 빅테크가 데이터센터에 한 해 \$725B를 쏟아붓는 동안, Apple은 정반대로 베팅했다 — 이미 사용자 주머니 속에 있는 수십억 대 기기. 2026년 6월 WWDC를 앞두고 Apple은 15년간 쌓은 자체 실리콘 경험을 무기로 \"클라우드 대신 기기에서\" AI를 돌리는 온디바이스 전략을 전면에 내세운다. 메인프레임→PC→클라우드→엣지로 도는 컴퓨팅의 진자, A11(0.6 TOPS)에서 M4(38 TOPS)까지 63배 커진 Neural Engine, 통합 메모리로 671B 모델을 Mac에 통째로 올리는 법, Apple Intelligence의 영광과 BBC 헤드라인 참사·Siri 연기·\$250M 합의, Private Cloud Compute의 5대 프라이버시 보장, 2026년 Google Gemini 딜과 Nvidia 컨피덴셜 컴퓨트, 증류·양자화·LoRA로 모델을 다이어트시키는 원리, \"사용자가 사준 컴퓨팅\" \$50B 논리, 그리고 개발자·기업을 위한 온디바이스 vs 클라우드 실무 의사결정까지. 인터랙티브 시뮬레이터 3종 포함.

코어닷투데이47분

기술AI 추론양자화

2026.02.15

70B 모델을 스마트폰에서 돌린다 — AI 추론 최적화의 모든 것

GPT급 거대 모델을 실시간으로, 저비용으로, 심지어 스마트폰에서도 돌리려면? 양자화, 프루닝, 지식 증류, 컴파일러 최적화까지 — AI 추론 최적화의 핵심 기법들을 실전 사례와 함께 총정리한다.

코어닷투데이58분

LoRA / QLoRA 특집: 1,750억 개 파라미터를 35MB로 길들이는 마법

인사이트LoRAQLoRA

2025.12.21

LoRA / QLoRA 특집: 1,750억 개 파라미터를 35MB로 길들이는 마법

GPT-3 175B를 파인튜닝하려면 1.2TB GPU 메모리가 필요하다. LoRA는 학습 파라미터를 1만 배 줄이고, QLoRA는 65B 모델을 단일 48GB GPU에서 학습 가능하게 만들었다. 저랭크 분해의 수학부터 2026년 모든 오픈소스 모델의 표준이 된 여정까지, 두 논문을 낱낱이 해부한다.

코어닷투데이44분

8-bit Adam 특집: 옵티마이저 메모리를 75% 줄인 블록별 양자화의 비밀

기술8-bit Adambitsandbytes

2025.11.15

8-bit Adam 특집: 옵티마이저 메모리를 75% 줄인 블록별 양자화의 비밀

Adam 옵티마이저의 상태만 84GB — 모델보다 6배 크다. 2021년, Tim Dettmers는 옵티마이저 상태를 8비트로 압축해 75%를 절약하면서도 32비트와 동일한 학습 품질을 유지하는 방법을 발견했다. 블록별 양자화와 동적 트리 양자화의 원리를 파헤친다.

코어닷투데이20분

양자화(Quantization) 완전 해부: 70B 모델을 내 노트북에서 돌리는 마법의 원리

기술양자화Quantization

2025.10.20

양자화(Quantization) 완전 해부: 70B 모델을 내 노트북에서 돌리는 마법의 원리

280GB짜리 AI 모델을 35GB로 줄이면서 성능은 97%를 유지한다. 어떻게? FP32에서 INT4까지, BinaryConnect에서 BitNet까지 — 양자화의 역사, 원리, 실전 기법, 그리고 안전성 문제까지 총정리.

코어닷투데이24분