coredot.today
양자화(Quantization) 완전 해부: 70B 모델을 내 노트북에서 돌리는 마법의 원리
블로그로 돌아가기
양자화QuantizationGPTQAWQGGUFINT4LLM 최적화

양자화(Quantization) 완전 해부: 70B 모델을 내 노트북에서 돌리는 마법의 원리

280GB짜리 AI 모델을 35GB로 줄이면서 성능은 97%를 유지한다. 어떻게? FP32에서 INT4까지, BinaryConnect에서 BitNet까지 — 양자화의 역사, 원리, 실전 기법, 그리고 안전성 문제까지 총정리.

코어닷투데이2025-10-2023

들어가며: 280GB를 35GB로 줄이는 마법

Llama 2 70B 모델의 원본 크기: 약 280GB (FP32). 이것을 실행하려면 수백만 원짜리 GPU 여러 장이 필요하다.

같은 모델을 INT4로 양자화하면: 약 35GB. RTX 4090(24GB) 하나에 부분적으로 올릴 수 있다. 성능 저하는 1~3%.

이것이 양자화(Quantization)의 마법이다 — 모델의 숫자 정밀도를 낮춰 크기를 줄이면서, 실용적 성능은 거의 유지하는 기법.

2025년 현재, 양자화 없이는 AI를 실용적으로 사용할 수 없다. ChatGPT부터 스마트폰 AI까지, 모든 곳에 양자화가 적용되어 있다.


제1장: 양자화란 무엇인가 — 비유로 이해하기

JPEG와 같은 원리

디지털 카메라로 사진을 찍으면 RAW 파일은 수십 MB다. 이것을 JPEG로 변환하면 수 MB로 줄어든다. 색상 정보의 정밀도를 약간 낮추지만, 눈으로 보기에는 거의 차이가 없다.

양자화도 같다. AI 모델의 가중치(weight)는 기본적으로 32비트 부동소수점(FP32)으로 저장된다. 이것을 8비트 정수(INT8)** 또는 **4비트 정수(INT4)로 변환하면:

양자화의 핵심: 정밀도를 낮추면 크기가 줄어든다
FP32 32비트 가중치 하나에 4바이트. 가장 정밀하지만 가장 크다.
FP16/BF16 16비트 2바이트. 크기 절반. 학습의 표준.
INT8 8비트 1바이트. 4배 절감. 프로덕션 추론의 표준.
INT4 4비트 0.5바이트. 8배 절감. 로컬 LLM의 핵심.

수학적 원리

양자화의 핵심 공식은 단순하다:

대칭 양자화 (AbsMax):

스케일: s = max(|x|) / (2^(b-1) - 1)
양자화: x_q = round(x / s)
역양자화: x̂ = x_q × s

예: 가중치 값 0.73을 INT8(-127~127)로 양자화하면:

  • 최대값이 1.0이라면 → 스케일 s = 1.0/127 ≈ 0.00787
  • 양자화: round(0.73 / 0.00787) = round(92.8) = 93
  • 역양자화: 93 × 0.00787 = 0.732 (원래 0.73 → 0.002 오차)

이 정도 오차는 신경망의 성능에 거의 영향을 주지 않는다.


제2장: 역사 — 연구 호기심에서 산업 필수로

2015 — BinaryConnect: 이진 가중치 {-1, +1}
2016 — XNOR-Net: 가중치+활성화 모두 이진화. 58배 빠른 합성곱.
2018 — Google QAT: 양자화를 학습에 통합. TF Lite의 토대.
2022 — LLM.int8(): 아웃라이어 발견. bitsandbytes 탄생.
2022 — GPTQ: 최초의 LLM 4비트 압축.
2023 — AWQ, SmoothQuant, QLoRA: LLM 양자화 폭발.
2024 — BitNet b1.58: 1.58비트 시대. FP8 표준화.

2016 — XNOR-Net: 곱셈을 비트 연산으로

Rastegari 등이 발표한 XNOR-Net은 급진적이었다. 가중치와 활성화를 모두 {-1, +1}로 이진화하면, 행렬 곱셈을 XNOR 비트 연산으로 대체할 수 있다.

결과: 합성곱 연산 58배 가속**, 메모리 32배 절감. 하지만 정확도가 크게 떨어졌고, 실용적이기보다는 **"이것이 가능하다"를 증명한 논문이었다.

2022 — LLM.int8(): "아웃라이어"의 발견

Tim Dettmers 등이 NeurIPS 2022에서 발표한 LLM.int8()은 LLM 양자화의 전환점이었다.

핵심 발견: 67억 파라미터 이상의 대형 모델에서, 특정 은닉 차원의 활성화 값이 나머지보다 ~100배 큰 "아웃라이어(이상치)"가 나타난다. 전체 값의 0.1%에 불과하지만, 이 아웃라이어를 무시하면:

  • 어텐션 확률 질량 20%+ 하락
  • 퍼플렉시티 600~1000% 악화

해법: 혼합 정밀도 분해 — 99.9%의 값은 INT8로, 아웃라이어(크기 ≥ 6)는 FP16으로 처리. 이것이 bitsandbytes 라이브러리의 기원이다.

2022 — GPTQ: LLM 4비트의 시대를 열다

Frantar 등의 GPTQ는 LLM을 최초로 4비트로 압축하면서도 성능을 유지한 기법이다. 역 헤시안 정보를 사용해, 한 가중치의 양자화 오차를 나머지 가중치에 재분배한다. 이것이 오늘날 HuggingFace에서 가장 많이 보는 양자화 모델의 기반이다.


제3장: 양자화의 두 가지 접근법

PTQ (Post-Training Quantization) — 학습 후 양자화

모델을 완전히 학습한 후에 양자화를 적용한다. 재학습 불필요.

PTQ vs QAT 비교
PTQ (학습 후 양자화) 빠르고 간단. 소량의 캘리브레이션 데이터만 필요. 8비트에서 우수, 4비트 이하에서 약화.
QAT (양자화 인식 학습) 학습 중 양자화를 시뮬레이션. 더 높은 정확도. 하지만 전체 학습 비용 발생.
비교 항목PTQQAT
재학습 필요?아니오예 (전체 학습 주기)
컴퓨트 비용낮음높음
정확도 (8비트)우수우수
정확도 (4비트 이하)떨어짐우수
최적 용도빠른 배포, 큰 모델극한 압축, 안전 중요 모델

2025년 표준: 대부분의 실무에서 PTQ(GPTQ/AWQ)로 충분하다. QAT는 4비트 이하 극한 압축이나 안전성이 중요한 경우에 사용한다.


제4장: 주요 양자화 기법 비교

2025년 실전에서 쓰이는 5대 기법

기법연도비트캘리브레이션학습?최적 용도
GPTQ20224비트필요아니오GPU 추론 (HuggingFace 생태계)
AWQ20234비트최소아니오빠른 GPU 추론 (vLLM, 최고 속도)
SmoothQuant20238비트 (W+A)필요아니오가중치+활성화 동시 양자화
bitsandbytes2022-234/8비트불필요예 (QLoRA)파인튜닝
GGUF2023+2~8비트불필요아니오CPU/로컬 추론 (Ollama)

AWQ — 2023 MLSys 최우수 논문

Lin 등의 AWQ는 핵심 통찰이 명쾌하다: 모든 가중치가 동등하게 중요한 것이 아니다. 활성화(activation) 크기를 관찰하면, 전체의 약 1%만이 "중요한(salient)" 채널이다.

이 1%를 보호하면 나머지 99%를 공격적으로 양자화해도 성능이 유지된다. Marlin 커널과 결합하면 A100에서 741 tok/s — 현존 최고 속도.

GGUF와 K-Quant — 로컬 AI의 핵심

GGUF는 양자화 알고리즘이 아니라 파일 포맷이다. llama.cpp와 Ollama가 사용한다.

레벨비트/가중치크기 (7B 기준)품질추천
Q8_07.17~7.2 GBFP16과 거의 동일메모리 여유 시
Q6_K6.57~5.5 GB매우 좋음고품질 필요
Q4_K_M4.83~3.8 GB좋음 (92% 유지)대부분의 사용자 추천
Q4_K_S4.57~3.6 GB좋음메모리 제한 시
IQ3_S3.52~2.8 GB보통극한 압축
IQ2_XS2.43~2.1 GB낮음실험용

황금 규칙: GPU에 완전히 올릴 수 있는 가장 큰 양자화 레벨을 선택하라. Q4_K_S가 여유 있게 들어가면, 더 작은 모델 대신 더 큰 모델의 Q4_K_M을 선택하는 것이 낫다.


제5장: 숫자 형식 완전 정리

7B 모델 기준 메모리 사용량
FP32
~28 GB
FP16/BF16
~14 GB
INT8/FP8
~7 GB
INT4/NF4
~3.5 GB
1.58비트
~1.4 GB

각 형식의 역할

형식비트용도특징
FP3232연구, 기준선최고 정밀도. 실무에서는 거의 사용 안 함
BF1616학습의 표준FP32와 같은 범위, 낮은 정밀도. 2024~ 학습 기본값
FP88H100+ 프로덕션 추론E4M3(정밀도↑)/E5M2(범위↑) 두 변형. 2024~ GPU 표준
INT88프로덕션 추론정수 연산. 가장 오래된 프로덕션 양자화
NF44QLoRA 파인튜닝정규 분포에 최적화된 비균일 양자화. bitsandbytes 전용
INT44로컬 추론의 핵심GPTQ, AWQ, GGUF에서 사용. 8배 절감, 1~3% 성능 저하
MXFP44차세대 하드웨어OCP 표준. 32개 원소가 스케일 공유. AMD/NVIDIA 지원
1.58비트1.58연구/실험{-1, 0, +1} 삼진법. 곱셈→덧셈. BitNet b1.58

제6장: 양자화의 그림자 — 안전성 문제

아웃라이어 문제

6.7B+ 모델에서 나타나는 이상치 특징(outlier features)은 양자화의 가장 큰 적이다.

전체 활성화의 0.1%에 불과하지만, 나머지보다 ~100배 큰 값이 특정 은닉 차원에 나타난다. 이 값을 포함해 균일 양자화하면, 나머지 99.9%의 값이 극히 좁은 범위에 압축되어 정보가 대량 손실된다.

해결책: SmoothQuant(활성화 스무딩), LLM.int8()(혼합 정밀도), AWQ(중요 채널 보호) 등이 각자의 방식으로 아웃라이어를 다룬다.

안전 정렬(Safety Alignment) 약화

가장 심각한 문제:

양자화가 RLHF 안전 가드레일을 침묵 속에 무력화할 수 있다.

연구 결과:

  • 퍼플렉시티(언어 품질)는 유지되지만 안전 행동이 크게 약화
  • "언러닝"된 민감 정보가 양자화 후 최대 83% 복원될 수 있음
  • Q-Misalign 공격: 풀 정밀도에서는 잠자던 취약점이 4비트 양자화 후 노출됨

퍼플렉시티는 "배포 준비 상태의 불충분하고 종종 오해를 부르는 대리 지표"라는 것이 연구자들의 경고다.

시사점: 안전이 중요한 모델은 양자화 후 반드시 안전성 재평가를 거쳐야 한다.

극한 양자화의 한계

  • 2비트: CodeGemma에서 "일관된 응답 생성 능력의 완전한 붕괴" 관찰
  • 반복 토큰 생성: 심한 양자화는 다음 토큰 확률 분포를 손상시켜, 맥락과 무관한 반복 시퀀스 생성
  • 수학·코딩: 양자화에 가장 민감한 도메인. 정밀한 숫자 추론이 필요한 작업에서 성능 저하가 두드러짐

제7장: BitNet b1.58 — 1.58비트의 시대

곱셈 없는 신경망

Microsoft Research의 Ma 등이 2024년에 발표한 BitNet b1.58은 파격적이다: 가중치가 오직 {-1, 0, +1} 세 값만 가진다. log₂(3) = 1.58비트.

곱셈이 덧셈과 뺄셈으로 대체된다. 부동소수점 곱셈 유닛이 필요 없다.

비교 항목BitNet b1.58 (3B)LLaMA FP16 (3B)
퍼플렉시티9.9110.04
메모리2.22 GB7.89 GB
지연 시간1.87ms5.07ms
에너지 (행렬곱)71.4배 절감기준

놀라운 점: 1.58비트 모델이 FP16보다 퍼플렉시티가 더 낮다(더 좋다). 0의 추가가 "특징 필터링" 효과를 주기 때문이다.

효율 등가 법칙

BitNet b1.58의 연구에서 발견된 패턴:

  • 13B BitNet ≈ 3B FP16
  • 30B BitNet ≈ 7B FP16
  • 70B BitNet ≈ 13B FP16

bitnet.cpp**로 100B BitNet 모델을 **CPU에서 인간 읽기 속도(5~7 tok/s)로 실행할 수 있다.

한계

  • 학습을 처음부터 해야 한다 (기존 모델을 사후 1비트로 변환하는 것은 사실상 불가능)
  • 상용 적용: Microsoft 공식 입장은 "추가 테스트 없이 상업적 사용 비추천"
  • 네이티브 삼진법 연산을 지원하는 하드웨어가 아직 주류에 없음

제8장: 실전 가이드 — 어떤 기법을 선택할 것인가

무엇을 하려 하는가?
GPU 추론 서버
로컬/CPU 추론
모델 파인튜닝
→ AWQ (최고 속도)
→ GGUF Q4_K_M
→ bitsandbytes QLoRA

상세 추천

시나리오추천 기법이유
프로덕션 GPU 서버 (vLLM)AWQMarlin 커널로 최고 속도 (741 tok/s)
프로덕션 GPU 서버 (HF)GPTQ가장 큰 사전 양자화 모델 라이브러리
가중치+활성화 8비트SmoothQuant하드웨어 가속 W8A8
Ollama/로컬 PCGGUF Q4_K_MCPU에서도 작동, 에너지 효율 최고
적은 GPU로 파인튜닝bitsandbytes (QLoRA)48GB GPU 하나로 65B 파인튜닝
극한 압축 (연구)QuIP# / QTIP2~3비트 SOTA

2025년 표준 레시피

BF16으로 학습하고, INT4로 배포한다.

이것이 산업계가 수렴한 결론이다.


맺으며: 양자화 없이는 AI가 없다

양자화는 AI를 실용적으로 만든 기술이다.

데이터센터에서만 돌아가던 수백 GB 모델을 노트북에서 돌리게 만들었고, 수백만 원짜리 GPU가 필요하던 추론을 스마트폰에서 가능하게 만들었으며, 월 수만 달러의 클라우드 비용을 수백 달러로 줄였다.

2015년 BinaryConnect에서 시작된 여정은, 2025년 BitNet b1.58에서 곱셈 없는 신경망까지 도달했다. 이것은 끝이 아니라 시작이다 — NVFP4, 1비트 하드웨어, 온디바이스 양자화가 다음 챕터를 열고 있다.

hljs language-python
# 이 한 줄이 280GB를 35GB로 바꾼다
model = AutoModelForCausalLM.from_pretrained("model_name", load_in_4bit=True)

참고 자료