#Residual Stream

1개의 포스트

2026.04.04

Transformer와 Depth Separation: 96개 층이 만드는 '생각의 깊이' — 왜 Transformer는 깊어야 똑똑한가

GPT-1은 12층, GPT-3는 96층이다. 층수가 8배 늘자, 모델은 '텍스트 생성기'에서 '범용 추론 엔진'으로 변신했다. 이 질적 도약은 왜 일어났는가? Transformer의 각 층이 어떤 역할을 하는지 — 초기 층의 문법 감지부터 깊은 층의 논리 추론까지 — 를 추적하고, 이 계층적 구조가 LoRA의 효율과 Mixture of Depths의 혁신을 어떻게 가능케 했는지를 파헤친다.

코어닷투데이58분