1개의 포스트
GPT급 거대 모델을 실시간으로, 저비용으로, 심지어 스마트폰에서도 돌리려면? 양자화, 프루닝, 지식 증류, 컴파일러 최적화까지 — AI 추론 최적화의 핵심 기법들을 실전 사례와 함께 총정리한다.