블로그로 돌아가기

#긴 컨텍스트
2개의 포스트

기술선형 어텐션Kimi Linear
2026.01.25Kimi Linear 특집: '어텐션이 전부'인 시대, 선형 어텐션이 왕좌를 빼앗다
100만 토큰을 처리할 때 디코딩 속도 6.3배, KV 캐시 75% 절감 — 그러면서도 풀 어텐션 트랜스포머를 모든 벤치마크에서 이긴다. Moonshot AI의 Kimi Linear가 보여준 '선형 어텐션의 역습'을 완전 해부한다.
코어닷투데이37분

기술FlashAttentionTransformer
2025.11.04FlashAttention 해부: 박사과정 학생이 만든 커널이 AI 산업 전체를 바꿨다
GPT-3의 컨텍스트가 2K에 머물렀던 이유? 어텐션이 O(N²) 메모리를 잡아먹었기 때문이다. 한 박사과정 학생이 GPU 메모리 계층을 이해하고, 수학은 그대로 두되 메모리 접근만 바꿔서 2~4배 빠르고 10~20배 적은 메모리를 달성했다. 정확도 손실 0%.
코어닷투데이24분