블로그로 돌아가기



#양자화
4개의 포스트

기술AI 추론양자화
2026.02.1570B 모델을 스마트폰에서 돌린다 — AI 추론 최적화의 모든 것
GPT급 거대 모델을 실시간으로, 저비용으로, 심지어 스마트폰에서도 돌리려면? 양자화, 프루닝, 지식 증류, 컴파일러 최적화까지 — AI 추론 최적화의 핵심 기법들을 실전 사례와 함께 총정리한다.
코어닷투데이58분

인사이트LoRAQLoRA
2025.12.21LoRA / QLoRA 특집: 1,750억 개 파라미터를 35MB로 길들이는 마법
GPT-3 175B를 파인튜닝하려면 1.2TB GPU 메모리가 필요하다. LoRA는 학습 파라미터를 1만 배 줄이고, QLoRA는 65B 모델을 단일 48GB GPU에서 학습 가능하게 만들었다. 저랭크 분해의 수학부터 2026년 모든 오픈소스 모델의 표준이 된 여정까지, 두 논문을 낱낱이 해부한다.
코어닷투데이44분

기술8-bit Adambitsandbytes
2025.11.158-bit Adam 특집: 옵티마이저 메모리를 75% 줄인 블록별 양자화의 비밀
Adam 옵티마이저의 상태만 84GB — 모델보다 6배 크다. 2021년, Tim Dettmers는 옵티마이저 상태를 8비트로 압축해 75%를 절약하면서도 32비트와 동일한 학습 품질을 유지하는 방법을 발견했다. 블록별 양자화와 동적 트리 양자화의 원리를 파헤친다.
코어닷투데이20분

기술양자화Quantization
2025.10.20양자화(Quantization) 완전 해부: 70B 모델을 내 노트북에서 돌리는 마법의 원리
280GB짜리 AI 모델을 35GB로 줄이면서 성능은 97%를 유지한다. 어떻게? FP32에서 INT4까지, BinaryConnect에서 BitNet까지 — 양자화의 역사, 원리, 실전 기법, 그리고 안전성 문제까지 총정리.
코어닷투데이24분