선형 어텐션Kimi LinearKDADeltaNet트랜스포머 대안긴 컨텍스트Moonshot AI

Kimi Linear 특집: '어텐션이 전부'인 시대, 선형 어텐션이 왕좌를 빼앗다

100만 토큰을 처리할 때 디코딩 속도 6.3배, KV 캐시 75% 절감 — 그러면서도 풀 어텐션 트랜스포머를 모든 벤치마크에서 이긴다. Moonshot AI의 Kimi Linear가 보여준 '선형 어텐션의 역습'을 완전 해부한다.

코어닷투데이2026-01-2537분

들어가며: "이길 수 없다"고 했던 것을 이겼다

AI 업계에는 오랫동안 상식처럼 통하던 믿음이 있었다:

"선형 어텐션은 효율적이지만, 풀 어텐션(softmax attention)의 성능을 이길 수 없다."

Mamba, RWKV, RetNet — 트랜스포머를 대체하려는 시도는 많았지만, 동일 조건에서 비교하면 항상 풀 어텐션이 이겼다. 효율성은 좋지만 표현력에서 밀린다는 것이 정설이었다.

2025년 10월, Moonshot AI의 60명 연구팀이 이 상식을 깨뜨렸다.

논문 정보

"Kimi Linear: An Expressive, Efficient Attention Architecture"
저자: Yu Zhang 외 59명 (Moonshot AI / Kimi Team)
arXiv: 2510.26692 (2025년 10월 30일)

핵심 주장: 공정한 비교에서 선형 어텐션 중심 모델이 풀 어텐션 트랜스포머를 모든 시나리오(일반, 수학, 코드, 긴 컨텍스트, 강화학습)에서 능가한다.

핵심 수치:
— 100만 토큰 디코딩: 6.3배 빠름
— KV 캐시: 75% 절감
— 128K 컨텍스트 RULER 벤치마크: 84.3 (풀 어텐션 81.3)
— 오픈소스: 코드 + 모델 + 커널 공개

이 글은 Kimi Linear 논문을 처음부터 끝까지 해부한다. 선형 어텐션이 왜 지금까지 풀 어텐션을 이기지 못했는지, Kimi Linear가 어떤 구체적 혁신으로 그 벽을 넘었는지, 그리고 이것이 2026년 AI 산업에 무엇을 의미하는지.

1장: 풀 어텐션의 아킬레스건

O(N²)이라는 숙명

트랜스포머의 셀프 어텐션은 시퀀스의 모든 위치 쌍을 계산한다. 시퀀스 길이 N이면 연산량은 O(N²).

4K 토큰 1,600만 연산 문제 없음

128K 토큰 164억 연산 비싸지기 시작

1M 토큰 1조 연산 매우 비쌈

하지만 더 큰 문제는 KV 캐시다. 추론 시, 이전에 처리한 모든 토큰의 Key와 Value 벡터를 메모리에 저장해야 한다. 100만 토큰이면 수십 GB의 메모리가 필요하다. 이것이 긴 컨텍스트 처리의 실질적 병목이다.

KV 캐시의 고통

비유: 당신이 1,000페이지짜리 책을 읽고 있다고 하자. 풀 어텐션은 이미 읽은 모든 페이지를 책상 위에 펼쳐 놓고, 새 페이지를 읽을 때마다 이전 모든 페이지를 다시 훑어본다. 책이 길어질수록 책상은 꽉 차고, 훑어보는 시간도 늘어난다.

이것이 2023~2025년 AI 업계가 FlashAttention, 슬라이딩 윈도우, KV 캐시 압축 등 온갖 최적화에 매달린 이유다. 근본적인 O(N²)을 피하지 못하면서 상수를 줄이려는 노력이었다.

2장: 선형 어텐션의 꿈 — 그리고 좌절

선형 어텐션이란?

풀 어텐션의 핵심 연산은:

Attention(Q, K, V) = softmax(Q × K^T) × V

여기서 Q × K^T가 N×N 행렬을 만들어 O(N²)이 된다.

선형 어텐션의 아이디어는 softmax를 제거하고, 행렬 곱의 결합 법칙을 이용해 연산 순서를 바꾸는 것이다:

LinearAttention = Q × (K^T × V)

K^T × V를 먼저 계산하면 d×d 행렬(d는 헤드 차원)이 되어, N에 무관한 고정 크기 상태가 된다. 연산량은 O(N) — 시퀀스 길이에 선형적.

비유: 1,000페이지 책을 읽을 때, 노트 한 장에 요약하면서 읽는 것이다. 새 페이지를 읽을 때마다 노트를 업데이트한다. 노트 크기는 고정이므로, 책이 아무리 길어도 참조 시간은 일정하다.

선형 어텐션이 실패했던 이유

이론적으로는 완벽하다. 하지만 실제로는 항상 풀 어텐션에 밀렸다. 핵심 문제:

정보 손실: 고정 크기 "노트"에 모든 것을 요약하면, 디테일이 사라진다
망각 부재: 새 정보가 들어와도 이전 정보를 잊지 못해, 노트가 오래된 정보로 오염된다
복사 불가: "이전에 본 것을 그대로 재현하라"(copying task) 같은 단순한 작업에서조차 실패

특히 세 번째 문제가 치명적이었다. Mamba2 같은 상태 공간 모델은 회문(palindrome) 생성, 연관 기억 검색 같은 합성 태스크에서 완전히 실패한다 (정확도 0%).

3장: 델타 규칙 — 60년 된 아이디어의 부활

1960년의 신경과학에서 시작된 이야기

델타 규칙(Delta Rule) 은 1960년대에 제안된 학습 규칙이다. 빠른 가중치(fast weights) 라고도 불리는 이 개념의 핵심:

정보를 저장할 때, 현재 저장된 것과 새로 저장할 것의 차이(delta) 만큼만 업데이트한다.

수식으로 표현하면, 상태 S에 키 k와 값 v를 저장할 때:

S ← S + β × k × (v - S^T × k)^T

(v - S^T × k)가 "기존에 k로 검색한 결과와 실제 v의 차이" — 즉 오차(error) 다. 이 오차만큼만 업데이트한다.

일반 선형 어텐션과의 차이

선형 어텐션 vs 델타 규칙

일반 선형 어텐션:
S ← S + k × v^T
"새 정보를 무조건 더한다." → 이전 정보와 충돌해도 상관없이 누적

DeltaNet (델타 규칙):
S ← S + β × k × (v − S^Tk)^T
"기존 기억과의 차이만 업데이트한다." → 같은 키에 새 값이 오면 덮어쓰기. 정보 간 간섭 최소화

비유:
선형 어텐션 = 노트에 계속 덧쓰기 (나중에 알아보기 어려움)
DeltaNet = 노트의 해당 항목을 수정 (항상 최신 상태 유지)

DeltaNet(2024)은 이 아이디어를 현대 딥러닝에 적용해 선형 어텐션의 복사 문제를 해결했다. 하지만 여전히 풀 어텐션에는 미치지 못했다.

4장: KDA — Kimi Delta Attention

Kimi Linear의 핵심 혁신인 KDA(Kimi Delta Attention) 는 DeltaNet을 두 가지 방향으로 확장한다.

혁신 1: 채널별 망각 게이트 (α_t)

기존 GDN(Gated DeltaNet)은 스칼라 망각 게이트를 사용했다. 하나의 숫자로 전체 상태를 균일하게 잊는다. KDA는 벡터 망각 게이트를 도입한다 — 각 차원마다 다른 속도로 잊는다.

GDN (기존)
α = 0.9 (스칼라)
모든 차원이 같은 속도로 망각

↓ vs ↓

KDA (이 논문)
α = [0.99, 0.7, 0.95, 0.3, ...] (벡터)
각 차원이 독립적 속도로 망각

왜 이것이 중요한가?

비유: 노트에 여러 종류의 정보를 기록한다고 하자 — 사람 이름, 숫자, 감정, 장소. GDN은 모든 종류의 정보를 같은 속도로 잊는다. 하지만 실제로는 사람 이름은 오래 기억하고, 구체적 숫자는 빨리 잊는 게 자연스럽다. KDA는 정보의 종류(채널)마다 다른 속도로 잊을 수 있다.

혁신 2: 더 빠른 하드웨어 커널 (DPLR 활용)

KDA의 상태 업데이트 공식을 전개하면:

S_t = (Diag(α_t) − β_t × k_t × (k_t ⊙ α_t)^T) × S_{t-1} + β_t × k_t × v_t^T

이것은 DPLR(Diagonal-Plus-Low-Rank) 형태다 — 대각 행렬 + 낮은 랭크 행렬의 합. DPLR은 효율적인 청크 단위 병렬 알고리즘이 있다.

KDA의 추가 최적화: 일반적인 DPLR은 4단계 청킹이 필요하지만, KDA는 a와 b 벡터가 모두 k에 바인딩되어 있어 2단계로 축소된다. 결과: 일반 DPLR 대비 약 2배 빠른 커널.

KDA의 수식 — 한눈에 보기

KDA 핵심 공식

상태 업데이트:
S_t = (I − β_t k_t k_t^T) Diag(α_t) S_t-1 + β_t k_t v_t^T

출력:
o_t = S_t^T q_t

여기서:
— S_t ∈ ℝ^d_k×d_v: 고정 크기 메모리 상태 (128×128)
— α_t ∈ (0,1]^d_k: 채널별 망각 게이트 벡터 (핵심 혁신)
— β_t ∈ [0,1]: 학습률 스칼라
— q_t, k_t: 쿼리, 키 (L2 정규화됨)

연산량 비교

KDA:  6T × d² + 3TC × d + TC²    (T에 선형)
풀 어텐션: 2T² × d                 (T에 이차)

T = 100만, d = 128, C = 64 일 때:

KDA: ~약 1,000억 FLOPs
풀 어텐션: ~약 25.6조 FLOPs → 약 250배 차이

5장: 하이브리드 설계 — "3:1 레시피"

KDA만으로는 아직 부족하다. 논문의 또 다른 핵심 통찰: 선형 어텐션 3개 레이어 + 풀 어텐션 1개 레이어의 반복이 최적이다.

KDA 레이어
선형 어텐션. 고정 크기 상태. O(N)

↓

KDA 레이어

↓

KDA 레이어

↓

MLA 레이어 (NoPE)
풀 어텐션. 정밀한 검색. 위치 인코딩 없음

↓ 반복 ↓

왜 3:1인가? (제거 실험)

논문은 다양한 비율을 실험했다:

KDA:MLA 비율별 Validation PPL (낮을수록 좋음)

0:1 (순수 MLA) 5.77

1:1 (절반씩) 5.66

3:1 (Kimi Linear) 5.65

7:1 5.70

15:1 5.82

3:1이 최적이다. 순수 MLA(5.77)보다 좋고, KDA 비율을 더 높이면(7:1, 15:1) 오히려 나빠진다.

NoPE의 의외의 효과

놀라운 설계 결정: MLA 레이어에 위치 인코딩(RoPE)을 사용하지 않는다(NoPE).

128K 컨텍스트 벤치마크 평균:

Kimi Linear (RoPE): 51.8
Kimi Linear (NoPE): 54.5

위치 인코딩을 빼니 오히려 긴 컨텍스트 성능이 올라갔다. 왜? KDA의 채널별 망각 게이트 α_t가 이미 학습 가능한 곱셈 위치 인코딩 역할을 하기 때문이다. RoPE를 추가하면 이 학습된 위치 정보와 충돌한다.

효율성의 원천

4개 레이어 중 3개가 KDA(고정 크기 상태)이므로:

KV 캐시가 75% 절감
긴 시퀀스에서 디코딩이 극적으로 빨라짐

6장: 합성 태스크 — "못한다"던 것을 해냈다

로봇이 작은 노트로 긴 두루마리를 요약하는 모습

선형 어텐션이 풀 어텐션을 이기지 못했던 가장 결정적인 증거는 합성 태스크(synthetic tasks) 에서의 실패였다.

회문(Palindrome) 재현 — 길이 2048

Mamba2 0%

GDN (스칼라 게이트) ~60%

KDA (채널별 게이트) 100%

다중 쿼리 연관 기억 검색 (MQAR) — 길이 512

Mamba2 0%

GDN ~60%

KDA 100%

Mamba2가 0%인 태스크에서 KDA는 100%. 채널별 망각 게이트가 "이 차원은 오래 기억하고, 저 차원은 빨리 잊어라"는 섬세한 제어를 가능하게 했기 때문이다.

7장: 실전 벤치마크 — "공정한 비교"의 결과

왜 "공정한 비교"가 중요한가

많은 논문이 "우리 모델이 트랜스포머를 이겼다"고 주장하지만, 학습 데이터·토큰 수·모델 크기가 다른 경우가 대부분이다. Kimi Linear의 가장 강한 주장은 모든 조건을 통일했다는 것이다:

같은 모델 크기 (48B 파라미터, 3B 활성)
같은 학습 데이터 (Kimi K2 코퍼스)
같은 학습 토큰 수 (1.4T)
같은 하이퍼파라미터, 옵티마이저, 스케줄
비교 대상: MLA(풀 어텐션 베이스라인)과 GDN-H(기존 최강 선형 어텐션 하이브리드)

일반 벤치마크 (Base 모델, 1.4T)

벤치마크	MLA (풀 어텐션)	GDN-H	Kimi Linear
MMLU	71.6	72.2	73.8
MMLU-Pro	47.2	47.9	51.0
BBH	71.6	70.6	72.9
HellaSwag	81.7	82.2	82.9
TriviaQA	68.9	70.1	71.7
GSM8K	83.7	81.7	83.9

Kimi Linear이 모든 항목에서 1위. 풀 어텐션(MLA) 대비 MMLU-Pro에서 3.8%p, BBH에서 1.3%p 앞선다.

128K 긴 컨텍스트 벤치마크

84.3 RULER MLA: 81.3 | GDN-H: 80.5

29.6 MRCR MLA: 22.6 | GDN-H: 23.9

90.0 HELMET-ICL MLA: 88.0 | GDN-H: 85.5

54.5 평균 MLA: 52.2 | GDN-H: 51.2

긴 컨텍스트에서 격차가 더 벌어진다. 특히 MRCR(다중 라운드 검색)에서 MLA 대비 31% 향상은 KDA의 고정 크기 상태가 긴 시퀀스에서도 정보를 효과적으로 관리함을 보여준다.

강화학습 성능

가장 인상적인 결과는 RL(강화학습) 스케일링에서 나온다.

논문의 Figure 6에 따르면:

수학 RL 학습 100스텝 후:
- MATH500: Kimi Linear ~92% vs MLA ~88%
- AIME 2025: Kimi Linear ~22% vs MLA ~18%
RL 학습 전체에서 Kimi Linear의 성장률이 MLA보다 일관되게 높음

선형 어텐션 모델이 RL에서도 풀 어텐션보다 빠르게 개선된다는 것은, 이 아키텍처가 단순히 "효율적인 대안"이 아니라 더 나은 기반이 될 수 있음을 시사한다.

8장: 속도와 메모리 — 숫자로 보는 효율성

디코딩 속도 (100만 토큰)

1M 토큰 디코딩 시간 per 토큰 (낮을수록 좋음)

MLA (풀 어텐션) 11.48ms

Kimi Linear 1.84ms

6.3배 빠르다. 시퀀스가 길어질수록 격차가 벌어진다:

시퀀스 길이	MLA	Kimi Linear	가속 비율
4K	~4.5ms	~4.5ms	1.0×
128K	~5.7ms	~5.5ms	~1.0×
512K	더 느림	빠름	5.7×
1M	11.48ms	1.84ms	6.3×

짧은 시퀀스에서는 차이가 없지만, 100만 토큰에서 6.3배. KDA 레이어의 상태 크기가 시퀀스 길이에 무관하게 128×128로 고정이기 때문이다.

KV 캐시 절감

	MLA	Kimi Linear	절감률
KV 캐시 사용량	100%	25%	75% 절감
이유	4/4 레이어가 KV 캐시	1/4만 KV 캐시	3/4이 고정 상태

비유: 100만 페이지 책을 읽을 때, 풀 어텐션은 100만 장의 포스트잇을 붙여야 한다. Kimi Linear는 25만 장의 포스트잇 + 고정 크기 노트 3권이면 된다. 노트 3권은 책이 더 길어져도 크기가 변하지 않는다.

9장: 메타 학습 관점 — 왜 이것이 작동하는가

논문이 제시하는 가장 깊은 통찰은 메타 학습(meta-learning) 해석이다.

"테스트 시점 학습(Test-Time Training)"으로서의 선형 어텐션

KDA의 상태 S는 빠른 가중치(fast weights) 로 해석할 수 있다. 각 토큰이 들어올 때마다, 모델은 S에 대해 한 스텝의 경사 하강법을 수행한다.

메타 학습 해석

풀 어텐션: 모든 이전 토큰을 메모리에 저장하고, 매번 전부 검색. "데이터베이스 검색" 방식.

KDA: 각 토큰으로 작은 모델(S)을 한 스텝 학습. "온라인 학습" 방식.

— 일반 선형 어텐션: 목적 함수 = 상관 극대화 (방향만, 크기 무제한 → 폭발)
— DeltaNet: 목적 함수 = MSE 최소화 (재구성 오차 → 안정적)
— GDN: MSE + L2 정규화 (가중치 감쇠 → 잊기 가능)
— KDA: MSE + 채널별 L2 정규화 (각 차원마다 다른 정규화 강도 → 정밀한 망각)

이 관점에서 보면, KDA는 입력 시퀀스를 처리하면서 내부의 작은 연관 기억 모듈을 실시간으로 학습하는 것이다. 채널별 망각 게이트는 이 실시간 학습의 정규화 강도를 차원마다 조절하는 것이다.

10장: 모델 구성과 오픈소스

전체 모델 아키텍처

Kimi Linear 48B-A3B 스펙

총 파라미터: 48B
활성 파라미터: 3B (추론 시)
MoE: 256 전문가 중 8개 활성 + 1 공유
레이어 구성: KDA:MLA = 3:1 반복
헤드 차원: d_k = d_v = 128
청크 크기: C = 64
학습 토큰: 5.7T (최종 출시 버전)
최대 컨텍스트: 100만 토큰
MLA 위치 인코딩: NoPE (위치 인코딩 없음)

KDA 구성요소:
— ShortConv (커널=4): q, k, v에 적용하는 짧은 합성곱
— L2 정규화: q, k에 적용 (안정성)
— Swish 활성화: ShortConv 후 적용
— 시그모이드 출력 게이트: 최종 출력에 적용
— 저랭크 투영: α_t 생성용

오픈소스 공개

hljs language-bash

# vLLM으로 즉시 배포 가능
vllm serve moonshotai/Kimi-Linear-48B-A3B-Instruct \
  --port 8000 --tensor-parallel-size 4 \
  --max-model-len 1048576 --trust-remote-code

공개된 것:

모델 가중치: HuggingFace (moonshotai/Kimi-Linear-48B-A3B-Base/Instruct)
KDA 커널: Flash Linear Attention(FLA) 저장소에 통합
vLLM 통합: 기존 풀 어텐션 파이프라인에 드롭인 교체 가능
라이선스: MIT

11장: 2026년의 맥락 — 왜 이것이 판도를 바꾸는가

1. "선형 어텐션은 안 된다"는 신화의 종말

Kimi Linear 이전에도 하이브리드 아키텍처(Jamba, Zamba 등)는 있었지만, 동일 조건에서 풀 어텐션을 이긴 경우는 없었다. Kimi Linear은 학습 데이터, 토큰 수, 모델 크기를 모두 맞추고도 이겼다. 이것은 패러다임 전환의 시작점이다.

2. 100만 토큰 시대의 인프라 비용

2026년, Claude와 Gemini가 100만 토큰 컨텍스트를 제공하고 있다. 하지만 이것의 추론 비용은 엄청나다. Kimi Linear의 디코딩 6.3배 가속 + KV 캐시 75% 절감은 긴 컨텍스트 서비스의 비용 구조를 근본적으로 바꾼다.

같은 하드웨어로 6배 더 많은 사용자를 서비스하거나, 같은 사용자에게 6배 더 긴 컨텍스트를 제공할 수 있다.

3. 에이전트 AI의 효율성 요구

AI 에이전트가 긴 세션 동안 작업하려면 — 코드를 수정하고, 문서를 분석하고, 웹을 탐색하려면 — 수만~수십만 토큰의 컨텍스트를 유지해야 한다. 풀 어텐션으로는 비용이 폭발한다.

Kimi Linear의 아키텍처는 에이전트가 긴 세션을 저렴하게 유지하는 핵심 인프라가 될 수 있다.

4. 엣지 배포의 가능성

KV 캐시가 75% 줄어든다는 것은, 같은 메모리로 4배 더 긴 컨텍스트를 처리할 수 있다는 뜻이다. DGX Spark(128GB) 같은 엣지 디바이스에서 긴 문서를 처리하는 시나리오에서 결정적이다.

12장: 한계와 남은 질문

KDA가 아직 완벽하지 않은 곳

일부 태스크에서 GDN-H가 더 좋은 경우가 있다. SFT 후 LiveBench(46.4 vs 45.2), EvalPlus(62.5 vs 61.0)에서 GDN-H가 근소하게 앞서는 항목이 있다. 아키텍처의 절대적 우위가 아직은 아니다.

LongBench V2, Frames에서 MLA(풀 어텐션)가 여전히 더 높다 (36.1 vs 35.0, 60.5 vs 58.8). 모든 긴 컨텍스트 태스크에서 이기는 것은 아니다.

스케일링 법칙의 수렴. Kimi Linear의 스케일링 계수(0.0527)가 MLA(0.0536)보다 약간 작다. 모델이 커질수록 격차가 줄어들 가능성이 있다. (하지만 현재 규모에서는 여전히 Kimi Linear이 앞서 있다.)

열린 질문

1000억 파라미터 이상에서도 유지되는가? — 현재 실험은 3B 활성 파라미터 규모
멀티모달에서의 효과는? — 비전, 오디오와 결합했을 때 동일한 이점이 있는가
순수 KDA(하이브리드 없이)로 이길 수 있는가? — 15:1도 MLA보다 나빠졌으므로, 완전한 탈-어텐션은 아직 어려움
최적의 비율은 모델 크기에 따라 달라지는가? — 3:1이 모든 규모에서 최적인지 검증 필요

마치며: "선형의 시대"가 열리고 있다

Kimi Linear 논문이 전하는 메시지는 명확하다:

선형 어텐션은 더 이상 풀 어텐션의 "저렴한 대안"이 아니다. 올바르게 설계하면, 더 나은 아키텍처가 된다.

2017년 "Attention Is All You Need"가 어텐션의 시대를 열었고, 2025년 Kimi Linear가 "But Not All Attention Needs to Be Full" 이라는 답을 내놓았다.

60명의 연구자가 도달한 결론은 놀라울 정도로 간결하다:

상태를 고정 크기 행렬로 유지하되, 채널마다 다른 속도로 잊게 하라 (채널별 망각 게이트)
4개 레이어 중 3개는 선형, 1개만 풀 어텐션으로 하라 (3:1 하이브리드)
풀 어텐션 레이어에는 위치 인코딩을 빼라 (NoPE)

이 세 가지 결정이, 8년간 깨지지 않던 풀 어텐션의 성능 우위를 무너뜨렸다.

2026년, AI 모델이 100만 토큰 이상의 컨텍스트를 다루고, 에이전트가 몇 시간 동안 연속 작업하는 시대가 열리고 있다. 이 시대에 O(N²)은 사치다. Kimi Linear이 보여준 것은 — 그 사치 없이도, 아니 그 사치 없이 오히려 더 잘 할 수 있다는 것이다.

부록: 핵심 용어 정리

주요 개념 한눈에 보기

선형 어텐션(Linear Attention): softmax를 제거하고 결합 법칙을 이용해 O(N²) → O(N)으로 줄인 어텐션. 고정 크기 상태(fast weights)를 유지.

델타 규칙(Delta Rule): 기존 기억과 새 정보의 차이(오차)만큼만 업데이트하는 학습 규칙. 1960년대 신경과학에서 유래.

KDA(Kimi Delta Attention): 델타 규칙 + 채널별 망각 게이트를 결합한 이 논문의 핵심 혁신. 각 차원마다 독립적인 망각 속도를 가짐.

채널별 망각 게이트(α_t): d_k 차원의 벡터. 각 차원의 정보가 다른 속도로 잊혀지도록 제어. GDN의 스칼라 게이트와의 핵심 차이.

DPLR(Diagonal-Plus-Low-Rank): KDA 전이 행렬의 수학적 구조. 효율적인 청크 단위 병렬 알고리즘 적용 가능.

MLA(Multi-Head Latent Attention): DeepSeek에서 유래한 압축 KV 캐시 어텐션. 이 논문에서 풀 어텐션 베이스라인으로 사용.

NoPE(No Positional Encoding): MLA 레이어에 위치 인코딩을 사용하지 않는 설계. KDA의 채널별 게이트가 위치 정보를 학습하므로 RoPE가 불필요.

3:1 하이브리드: KDA 3개 레이어 + MLA 1개 레이어를 반복하는 최적 비율. KV 캐시 75% 절감.

이 글에서 다룬 논문: Yu Zhang et al., "Kimi Linear: An Expressive, Efficient Attention Architecture," arXiv:2510.26692 (2025). 코드와 모델: github.com/MoonshotAI/Kimi-Linear

기술2025.11.04