1개의 포스트
100만 토큰을 처리할 때 디코딩 속도 6.3배, KV 캐시 75% 절감 — 그러면서도 풀 어텐션 트랜스포머를 모든 벤치마크에서 이긴다. Moonshot AI의 Kimi Linear가 보여준 '선형 어텐션의 역습'을 완전 해부한다.