#긴 컨텍스트

2개의 포스트

100만 토큰을 처리할 때 디코딩 속도 6.3배, KV 캐시 75% 절감 — 그러면서도 풀 어텐션 트랜스포머를 모든 벤치마크에서 이긴다. Moonshot AI의 Kimi Linear가 보여준 '선형 어텐션의 역습'을 완전 해부한다.

GPT-3의 컨텍스트가 2K에 머물렀던 이유? 어텐션이 O(N²) 메모리를 잡아먹었기 때문이다. 한 박사과정 학생이 GPU 메모리 계층을 이해하고, 수학은 그대로 두되 메모리 접근만 바꿔서 2~4배 빠르고 10~20배 적은 메모리를 달성했다. 정확도 손실 0%.