
Kimi Linear 특집: '어텐션이 전부'인 시대, 선형 어텐션이 왕좌를 빼앗다
100만 토큰을 처리할 때 디코딩 속도 6.3배, KV 캐시 75% 절감 — 그러면서도 풀 어텐션 트랜스포머를 모든 벤치마크에서 이긴다. Moonshot AI의 Kimi Linear가 보여준 '선형 어텐션의 역습'을 완전 해부한다.

100만 토큰을 처리할 때 디코딩 속도 6.3배, KV 캐시 75% 절감 — 그러면서도 풀 어텐션 트랜스포머를 모든 벤치마크에서 이긴다. Moonshot AI의 Kimi Linear가 보여준 '선형 어텐션의 역습'을 완전 해부한다.
AI 업계에는 오랫동안 상식처럼 통하던 믿음이 있었다:
"선형 어텐션은 효율적이지만, 풀 어텐션(softmax attention)의 성능을 이길 수 없다."
Mamba, RWKV, RetNet — 트랜스포머를 대체하려는 시도는 많았지만, 동일 조건에서 비교하면 항상 풀 어텐션이 이겼다. 효율성은 좋지만 표현력에서 밀린다는 것이 정설이었다.
2025년 10월, Moonshot AI의 60명 연구팀이 이 상식을 깨뜨렸다.
이 글은 Kimi Linear 논문을 처음부터 끝까지 해부한다. 선형 어텐션이 왜 지금까지 풀 어텐션을 이기지 못했는지, Kimi Linear가 어떤 구체적 혁신으로 그 벽을 넘었는지, 그리고 이것이 2026년 AI 산업에 무엇을 의미하는지.
트랜스포머의 셀프 어텐션은 시퀀스의 모든 위치 쌍을 계산한다. 시퀀스 길이 N이면 연산량은 O(N²).
하지만 더 큰 문제는 KV 캐시다. 추론 시, 이전에 처리한 모든 토큰의 Key와 Value 벡터를 메모리에 저장해야 한다. 100만 토큰이면 수십 GB의 메모리가 필요하다. 이것이 긴 컨텍스트 처리의 실질적 병목이다.
비유: 당신이 1,000페이지짜리 책을 읽고 있다고 하자. 풀 어텐션은 이미 읽은 모든 페이지를 책상 위에 펼쳐 놓고, 새 페이지를 읽을 때마다 이전 모든 페이지를 다시 훑어본다. 책이 길어질수록 책상은 꽉 차고, 훑어보는 시간도 늘어난다.
이것이 2023~2025년 AI 업계가 FlashAttention, 슬라이딩 윈도우, KV 캐시 압축 등 온갖 최적화에 매달린 이유다. 근본적인 O(N²)을 피하지 못하면서 상수를 줄이려는 노력이었다.
풀 어텐션의 핵심 연산은:
Attention(Q, K, V) = softmax(Q × K^T) × V
여기서 Q × K^T가 N×N 행렬을 만들어 O(N²)이 된다.
선형 어텐션의 아이디어는 softmax를 제거하고, 행렬 곱의 결합 법칙을 이용해 연산 순서를 바꾸는 것이다:
LinearAttention = Q × (K^T × V)
K^T × V를 먼저 계산하면 d×d 행렬(d는 헤드 차원)이 되어, N에 무관한 고정 크기 상태가 된다. 연산량은 O(N) — 시퀀스 길이에 선형적.
비유: 1,000페이지 책을 읽을 때, 노트 한 장에 요약하면서 읽는 것이다. 새 페이지를 읽을 때마다 노트를 업데이트한다. 노트 크기는 고정이므로, 책이 아무리 길어도 참조 시간은 일정하다.
이론적으로는 완벽하다. 하지만 실제로는 항상 풀 어텐션에 밀렸다. 핵심 문제:
특히 세 번째 문제가 치명적이었다. Mamba2 같은 상태 공간 모델은 회문(palindrome) 생성, 연관 기억 검색 같은 합성 태스크에서 완전히 실패한다 (정확도 0%).
델타 규칙(Delta Rule) 은 1960년대에 제안된 학습 규칙이다. 빠른 가중치(fast weights) 라고도 불리는 이 개념의 핵심:
정보를 저장할 때, 현재 저장된 것과 새로 저장할 것의 차이(delta) 만큼만 업데이트한다.
수식으로 표현하면, 상태 S에 키 k와 값 v를 저장할 때:
S ← S + β × k × (v - S^T × k)^T
(v - S^T × k)가 "기존에 k로 검색한 결과와 실제 v의 차이" — 즉 오차(error) 다. 이 오차만큼만 업데이트한다.
DeltaNet(2024)은 이 아이디어를 현대 딥러닝에 적용해 선형 어텐션의 복사 문제를 해결했다. 하지만 여전히 풀 어텐션에는 미치지 못했다.
Kimi Linear의 핵심 혁신인 KDA(Kimi Delta Attention) 는 DeltaNet을 두 가지 방향으로 확장한다.
기존 GDN(Gated DeltaNet)은 스칼라 망각 게이트를 사용했다. 하나의 숫자로 전체 상태를 균일하게 잊는다. KDA는 벡터 망각 게이트를 도입한다 — 각 차원마다 다른 속도로 잊는다.
왜 이것이 중요한가?
비유: 노트에 여러 종류의 정보를 기록한다고 하자 — 사람 이름, 숫자, 감정, 장소. GDN은 모든 종류의 정보를 같은 속도로 잊는다. 하지만 실제로는 사람 이름은 오래 기억하고, 구체적 숫자는 빨리 잊는 게 자연스럽다. KDA는 정보의 종류(채널)마다 다른 속도로 잊을 수 있다.
KDA의 상태 업데이트 공식을 전개하면:
S_t = (Diag(α_t) − β_t × k_t × (k_t ⊙ α_t)^T) × S_{t-1} + β_t × k_t × v_t^T
이것은 DPLR(Diagonal-Plus-Low-Rank) 형태다 — 대각 행렬 + 낮은 랭크 행렬의 합. DPLR은 효율적인 청크 단위 병렬 알고리즘이 있다.
KDA의 추가 최적화: 일반적인 DPLR은 4단계 청킹이 필요하지만, KDA는 a와 b 벡터가 모두 k에 바인딩되어 있어 2단계로 축소된다. 결과: 일반 DPLR 대비 약 2배 빠른 커널.
KDA: 6T × d² + 3TC × d + TC² (T에 선형)
풀 어텐션: 2T² × d (T에 이차)
T = 100만, d = 128, C = 64 일 때:
KDA만으로는 아직 부족하다. 논문의 또 다른 핵심 통찰: 선형 어텐션 3개 레이어 + 풀 어텐션 1개 레이어의 반복이 최적이다.
논문은 다양한 비율을 실험했다:
3:1이 최적이다. 순수 MLA(5.77)보다 좋고, KDA 비율을 더 높이면(7:1, 15:1) 오히려 나빠진다.
놀라운 설계 결정: MLA 레이어에 위치 인코딩(RoPE)을 사용하지 않는다(NoPE).
128K 컨텍스트 벤치마크 평균:
위치 인코딩을 빼니 오히려 긴 컨텍스트 성능이 올라갔다. 왜? KDA의 채널별 망각 게이트 α_t가 이미 학습 가능한 곱셈 위치 인코딩 역할을 하기 때문이다. RoPE를 추가하면 이 학습된 위치 정보와 충돌한다.
4개 레이어 중 3개가 KDA(고정 크기 상태)이므로:

선형 어텐션이 풀 어텐션을 이기지 못했던 가장 결정적인 증거는 합성 태스크(synthetic tasks) 에서의 실패였다.
Mamba2가 0%인 태스크에서 KDA는 100%. 채널별 망각 게이트가 "이 차원은 오래 기억하고, 저 차원은 빨리 잊어라"는 섬세한 제어를 가능하게 했기 때문이다.
많은 논문이 "우리 모델이 트랜스포머를 이겼다"고 주장하지만, 학습 데이터·토큰 수·모델 크기가 다른 경우가 대부분이다. Kimi Linear의 가장 강한 주장은 모든 조건을 통일했다는 것이다:
| 벤치마크 | MLA (풀 어텐션) | GDN-H | Kimi Linear |
|---|---|---|---|
| MMLU | 71.6 | 72.2 | 73.8 |
| MMLU-Pro | 47.2 | 47.9 | 51.0 |
| BBH | 71.6 | 70.6 | 72.9 |
| HellaSwag | 81.7 | 82.2 | 82.9 |
| TriviaQA | 68.9 | 70.1 | 71.7 |
| GSM8K | 83.7 | 81.7 | 83.9 |
Kimi Linear이 모든 항목에서 1위. 풀 어텐션(MLA) 대비 MMLU-Pro에서 3.8%p, BBH에서 1.3%p 앞선다.
긴 컨텍스트에서 격차가 더 벌어진다. 특히 MRCR(다중 라운드 검색)에서 MLA 대비 31% 향상은 KDA의 고정 크기 상태가 긴 시퀀스에서도 정보를 효과적으로 관리함을 보여준다.
가장 인상적인 결과는 RL(강화학습) 스케일링에서 나온다.
논문의 Figure 6에 따르면:
선형 어텐션 모델이 RL에서도 풀 어텐션보다 빠르게 개선된다는 것은, 이 아키텍처가 단순히 "효율적인 대안"이 아니라 더 나은 기반이 될 수 있음을 시사한다.
6.3배 빠르다. 시퀀스가 길어질수록 격차가 벌어진다:
| 시퀀스 길이 | MLA | Kimi Linear | 가속 비율 |
|---|---|---|---|
| 4K | ~4.5ms | ~4.5ms | 1.0× |
| 128K | ~5.7ms | ~5.5ms | ~1.0× |
| 512K | 더 느림 | 빠름 | 5.7× |
| 1M | 11.48ms | 1.84ms | 6.3× |
짧은 시퀀스에서는 차이가 없지만, 100만 토큰에서 6.3배. KDA 레이어의 상태 크기가 시퀀스 길이에 무관하게 128×128로 고정이기 때문이다.
| MLA | Kimi Linear | 절감률 | |
|---|---|---|---|
| KV 캐시 사용량 | 100% | 25% | 75% 절감 |
| 이유 | 4/4 레이어가 KV 캐시 | 1/4만 KV 캐시 | 3/4이 고정 상태 |
비유: 100만 페이지 책을 읽을 때, 풀 어텐션은 100만 장의 포스트잇을 붙여야 한다. Kimi Linear는 25만 장의 포스트잇 + 고정 크기 노트 3권이면 된다. 노트 3권은 책이 더 길어져도 크기가 변하지 않는다.
논문이 제시하는 가장 깊은 통찰은 메타 학습(meta-learning) 해석이다.
KDA의 상태 S는 빠른 가중치(fast weights) 로 해석할 수 있다. 각 토큰이 들어올 때마다, 모델은 S에 대해 한 스텝의 경사 하강법을 수행한다.
이 관점에서 보면, KDA는 입력 시퀀스를 처리하면서 내부의 작은 연관 기억 모듈을 실시간으로 학습하는 것이다. 채널별 망각 게이트는 이 실시간 학습의 정규화 강도를 차원마다 조절하는 것이다.
# vLLM으로 즉시 배포 가능
vllm serve moonshotai/Kimi-Linear-48B-A3B-Instruct \
--port 8000 --tensor-parallel-size 4 \
--max-model-len 1048576 --trust-remote-code
공개된 것:
moonshotai/Kimi-Linear-48B-A3B-Base/Instruct)Kimi Linear 이전에도 하이브리드 아키텍처(Jamba, Zamba 등)는 있었지만, 동일 조건에서 풀 어텐션을 이긴 경우는 없었다. Kimi Linear은 학습 데이터, 토큰 수, 모델 크기를 모두 맞추고도 이겼다. 이것은 패러다임 전환의 시작점이다.
2026년, Claude와 Gemini가 100만 토큰 컨텍스트를 제공하고 있다. 하지만 이것의 추론 비용은 엄청나다. Kimi Linear의 디코딩 6.3배 가속 + KV 캐시 75% 절감은 긴 컨텍스트 서비스의 비용 구조를 근본적으로 바꾼다.
같은 하드웨어로 6배 더 많은 사용자를 서비스하거나, 같은 사용자에게 6배 더 긴 컨텍스트를 제공할 수 있다.
AI 에이전트가 긴 세션 동안 작업하려면 — 코드를 수정하고, 문서를 분석하고, 웹을 탐색하려면 — 수만~수십만 토큰의 컨텍스트를 유지해야 한다. 풀 어텐션으로는 비용이 폭발한다.
Kimi Linear의 아키텍처는 에이전트가 긴 세션을 저렴하게 유지하는 핵심 인프라가 될 수 있다.
KV 캐시가 75% 줄어든다는 것은, 같은 메모리로 4배 더 긴 컨텍스트를 처리할 수 있다는 뜻이다. DGX Spark(128GB) 같은 엣지 디바이스에서 긴 문서를 처리하는 시나리오에서 결정적이다.
일부 태스크에서 GDN-H가 더 좋은 경우가 있다. SFT 후 LiveBench(46.4 vs 45.2), EvalPlus(62.5 vs 61.0)에서 GDN-H가 근소하게 앞서는 항목이 있다. 아키텍처의 절대적 우위가 아직은 아니다.
LongBench V2, Frames에서 MLA(풀 어텐션)가 여전히 더 높다 (36.1 vs 35.0, 60.5 vs 58.8). 모든 긴 컨텍스트 태스크에서 이기는 것은 아니다.
스케일링 법칙의 수렴. Kimi Linear의 스케일링 계수(0.0527)가 MLA(0.0536)보다 약간 작다. 모델이 커질수록 격차가 줄어들 가능성이 있다. (하지만 현재 규모에서는 여전히 Kimi Linear이 앞서 있다.)
Kimi Linear 논문이 전하는 메시지는 명확하다:
선형 어텐션은 더 이상 풀 어텐션의 "저렴한 대안"이 아니다. 올바르게 설계하면, 더 나은 아키텍처가 된다.
2017년 "Attention Is All You Need"가 어텐션의 시대를 열었고, 2025년 Kimi Linear가 "But Not All Attention Needs to Be Full" 이라는 답을 내놓았다.
60명의 연구자가 도달한 결론은 놀라울 정도로 간결하다:
이 세 가지 결정이, 8년간 깨지지 않던 풀 어텐션의 성능 우위를 무너뜨렸다.
2026년, AI 모델이 100만 토큰 이상의 컨텍스트를 다루고, 에이전트가 몇 시간 동안 연속 작업하는 시대가 열리고 있다. 이 시대에 O(N²)은 사치다. Kimi Linear이 보여준 것은 — 그 사치 없이도, 아니 그 사치 없이 오히려 더 잘 할 수 있다는 것이다.
이 글에서 다룬 논문: Yu Zhang et al., "Kimi Linear: An Expressive, Efficient Attention Architecture," arXiv:2510.26692 (2025). 코드와 모델: github.com/MoonshotAI/Kimi-Linear