1개의 포스트
1.3B 파라미터 모델이 175B GPT-3.5를 이겼다. 비결은 '교과서 품질' 데이터. 'Textbooks Are All You Need' 논문이 열어젖힌 소형 언어 모델 혁명과, 3년이 지난 2026년 지금 그 논문이 어떻게 현실이 되었는지를 추적한다.