
Attention Is Not What You Need: 어텐션 없이도 AI가 '생각'할 수 있다면?
2017년, 구글은 'Attention Is All You Need'로 AI 혁명을 열었다. 2025년 12월, 한 연구자가 같은 구조에 정면으로 반기를 든다 — 'Attention Is Not What You Need.' 어텐션 없이 기하학적 다양체 위에서 추론하는 새로운 시퀀스 모델링 패러다임을 해부한다.

2017년, 구글은 'Attention Is All You Need'로 AI 혁명을 열었다. 2025년 12월, 한 연구자가 같은 구조에 정면으로 반기를 든다 — 'Attention Is Not What You Need.' 어텐션 없이 기하학적 다양체 위에서 추론하는 새로운 시퀀스 모델링 패러다임을 해부한다.
2017년, 8명의 구글 연구자가 AI 역사상 가장 유명한 논문을 발표했다. 제목은 "Attention Is All You Need" — 어텐션만 있으면 된다. 비틀즈의 "All You Need Is Love"를 패러디한 이 도발적인 제목은 예언이 되었다. 트랜스포머는 GPT, BERT, DALL-E, AlphaFold의 기반이 되었고, 2026년 현재 사실상 모든 대형 AI 모델의 뼈대다.
그런데 2025년 12월, 한 연구자가 정확히 그 제목을 뒤집는 논문을 arXiv에 올렸다.
주장이 대담하다. 하지만 이 논문이 흥미로운 이유는 단순히 "어텐션이 필요 없다"고 말해서가 아니다. 어텐션이 실제로 무엇을 하고 있는지를 수학적으로 해부하고, 그 역할을 더 구조화된 기하학으로 대체할 수 있음을 보여준다. 마치 블랙박스의 뚜껑을 열어젖힌 셈이다.
이 논문을 이해하려면 먼저 어텐션이 왜 이렇게까지 중요해졌는지를 알아야 한다.
초기 시퀀스 모델링의 핵심 도전은 가변 길이 입력을 고정 길이로 압축하는 것이었다. RNN 인코더-디코더 구조에서 인코더는 입력 문장 전체를 하나의 벡터에 쑤셔 넣었다.
소설 한 권을 포스트잇 한 장에 요약하고, 그 포스트잇만 보고 소설을 복원하라고 하는 것과 같다.
문장이 길어지면 초반 정보가 증발했다. 이 정보 병목(information bottleneck) 이 기계번역 성능의 천장이었다.
2014년, 바단아우(Bahdanau)가 해법을 냈다. 디코더가 출력 단어를 생성할 때, 인코더의 모든 위치를 직접 참조하고 관련 있는 부분에 집중(attend) 한다. 포스트잇 대신, 소설 원문을 펼쳐놓고 필요한 페이지를 그때그때 찾아보는 것이다.
2017년, Vaswani 등은 한 단계 더 나아갔다. RNN을 완전히 걷어내고, 셀프 어텐션(self-attention) 만으로 시퀀스를 처리하는 트랜스포머를 제안했다. 셀프 어텐션에서는 시퀀스의 모든 위치가 다른 모든 위치를 "본다."
이 방식은 놀라울 정도로 효과적이었다. 병렬화가 가능해 학습이 빨랐고, 긴 거리의 의존성도 한 번에 잡아냈다. 트랜스포머는 NLP를 넘어 비전, 오디오, 단백질 구조 예측까지 모든 영역을 접수했다.
그런데 왕좌에 올라가면 안 보이던 것들이 보이기 시작한다.
셀프 어텐션은 시퀀스의 모든 위치 쌍을 계산한다. 시퀀스 길이가 N이면, N×N 어텐션 행렬이 필요하다.
시퀀스를 2배 늘리면 계산량은 4배. 이것이 2023년까지 컨텍스트 윈도우가 제한적이었던 근본 이유다. FlashAttention 같은 메모리 최적화로 엄청난 진전이 있었지만, 근본적인 O(N²) 복잡도는 그대로다.
어텐션 맵을 시각화하면 "이 단어가 저 단어를 봤다"는 것은 알 수 있다. 하지만 12개 레이어 × 12개 헤드 = 144개의 서로 다른 어텐션 패턴이 생겨나고, 이것들이 어떻게 상호작용해서 최종 추론에 이르는지는 아무도 모른다.
논문은 이 문제를 정확히 짚는다:
"어텐션 텐서의 진화하는 컬렉션을 요약할 수 있는 소수의 글로벌 불변량(invariant)이 존재하지 않는다."
비유하자면, 어텐션은 마치 100명이 동시에 속삭이는 회의실과 같다. 각 속삭임은 들을 수 있지만, 전체 회의가 어떤 결론으로 향하고 있는지는 파악하기 어렵다.
이 논문의 핵심 통찰은 여기에 있다. 셀프 어텐션이 실제로 무엇을 하는지 수학적으로 분석한 것이다.
셀프 어텐션의 계산 과정을 보자:
논문의 핵심 관찰: 2단계에서 d차원 벡터들의 공간이 N×N 쌍별 상호작용 공간으로 "리프팅(lifting)"된다. 차원이 폭발하는 것이다.
논문의 주장은 이렇다: 이 텐서 리프팅이 어텐션 기반 모델의 해석 불가능성의 수학적 근원이다. 매우 세밀하고 강력하지만, 바로 그 세밀함 때문에 전체를 조망할 수 있는 구조적 "요약"이 불가능해진다.
여기서 논문은 대담한 전환을 시도한다. "어텐션이 문제라면, 대안은 무엇인가?"
논문은 시퀀스 모델링을 기하학의 관점에서 재해석한다:
이것을 일상적 비유로 풀어보자.
당신이 서울 지도를 보고 있다고 하자. 각 건물(토큰)은 지도 위의 점이다. 어텐션 방식은 모든 건물 쌍 사이의 거리·관계·유사성을 계산하는 것이다 — 경복궁과 남산타워, 경복궁과 강남역, 경복궁과 이태원... 건물이 만 개면 1억 개의 관계를 추적한다. 강력하지만 비효율적이고, 도시의 전체 구조를 한눈에 보기 어렵다.
그래스만 방식은 다르다. 건물들을 "동네(부분공간)"로 묶고, 동네의 기하학적 방향성만 추적한다. 건대입구역 근처 건물 3개를 하나의 "부분공간"으로 보고, 그 부분공간이 합정동 부분공간과 어떤 각도로 놓여 있는지를 본다. 전체 관계의 수는 극적으로 줄어들지만, 도시의 구조적 패턴은 포착된다.
그래스만 다양체는 수학에서 100년 넘게 연구된 고전적 대상이다. 컴퓨터 비전의 부분공간 클러스터링, 저랭크 행렬 근사, 최적화 알고리즘 등에서 이미 활용되어 왔다. 하지만 시퀀스 모델링의 핵심 혼합 메커니즘으로 사용된 것은 이 논문이 처음이다.
그래스만 다양체 위의 점(= 부분공간)을 실제로 계산에 사용하려면 좌표가 필요하다. 여기서 등장하는 것이 플뤼커 좌표(Plücker coordinates) 다.
두 벡터 u와 v가 2차원 부분공간을 정의한다고 하자. 이 부분공간의 플뤼커 좌표는:
p_ij = u_i × v_j − u_j × v_i (1 ≤ i < j ≤ r)
이것은 두 벡터의 외적(wedge product) 으로, 부분공간의 "방향"을 인코딩한다. 핵심은:
비유: GPS 좌표가 지구 표면의 점을 (위도, 경도) 두 숫자로 표현하듯, 플뤼커 좌표는 고차원 부분공간을 유한 개의 숫자로 표현한다. 그리고 GPS에서 "위도는 -90
90, 경도는 -180180"이라는 제약이 있듯, 플뤼커 좌표에도 명시적인 대수적 제약이 있다.
이제 핵심이다. 이 논문은 어텐션을 Causal Grassmann Mixing Layer로 대체한다. 단계별로 분해해 보자.
모델 차원 d = 256에서 r = 32로 줄인다. 8배 축소.
z_t = W_red × h_t + b_red (W_red ∈ ℝ^{r×d})
이것은 마치 긴 문단을 핵심 키워드 몇 개로 요약하는 것이다. 어텐션이 전체 256차원에서 쌍별 연산을 하는 반면, 그래스만 레이어는 32차원 축소 공간에서 작업한다.
모든 위치 쌍을 보는 대신, 미리 정한 오프셋으로 인접 토큰들만 쌍을 이룬다.
윈도우 집합: 𝒲 = {1, 2, 4, 8, 12, 16}
위치 t에서는 t+1, t+2, t+4, t+8, t+12, t+16 위치의 토큰과만 쌍을 이룬다. 인과적(causal) 이므로 미래 토큰은 참조하지 않는다.
비유:** 어텐션이 교실의 모든 학생에게 질문하는 것이라면, 그래스만 레이어는 **바로 옆 친구, 두 칸 앞 친구, 네 칸 앞 친구...에게만 질문한다. 질문 수는 훨씬 적지만, 다양한 거리에서 정보를 수집한다.
각 토큰 쌍 (z_t, z_{t+Δ})을 2차원 부분공간으로 해석하고, 플뤼커 좌표로 인코딩한다.
p_ij^(Δ)(t) = z_{t,i} × z_{t+Δ,j} − z_{t,j} × z_{t+Δ,i}
이 연산은 두 토큰의 축소된 표현이 함께 펼치는 2차원 평면의 방향을 인코딩한다. r = 32이면 플뤼커 벡터의 차원은 r(r-1)/2 = 496개.
정규화까지 적용:
p̂_t^(Δ) = p_t^(Δ) / max(‖p_t^(Δ)‖₂, ε)
핵심 차이: 어텐션의 내적(dot product)은 두 벡터가 "얼마나 같은 방향인지"를 측정한다. 반면 플뤼커 좌표의 외적(wedge product)은 두 벡터가 "함께 어떤 평면을 정의하는지" 를 측정한다. 두 벡터의 관계의 기하학적 구조를 포착하는 것이다.
플뤼커 특성을 다시 모델 차원으로 투영하고, 시그모이드 게이트로 원본 표현과 혼합한다.
α_t = σ(W_gate × [h_t; g_t] + b_gate)
h̃_t = α_t ⊙ h_t + (1 − α_t) ⊙ g_t
게이트가 중요한 이유: 모든 위치에서 기하학적 정보가 동일하게 유용하지는 않다. 게이트가 "여기서는 원본 표현을 더 쓰고, 저기서는 기하학적 특성을 더 쓰겠다" 고 위치별로 조절한다.
두 접근법의 근본적 차이를 정리하자.
| 셀프 어텐션 | Grassmann Mixing | |
|---|---|---|
| 상호작용 범위 | 모든 위치 ↔ 모든 위치 (글로벌) | 로컬 윈도우 (오프셋 1~16) |
| 핵심 연산 | 내적(dot product) + softmax | 외적(wedge product) + 정규화 |
| 수학적 공간 | 비구조적 텐서 공간 ℝ^{N×N} | 구조적 다양체 Gr(2, r) |
| 복잡도 | O(N²d) | O(Nd²) (N에 대해 선형) |
| 해석 가능성 | 어텐션 맵 시각화 가능하나 글로벌 요약 어려움 | 유한 차원 불변량으로 분석 가능 |
| 자유도 | 레이어당 N²×H 개 | 레이어당 고정 (r, 윈도우 수에 의존) |
논문은 d = 256, 피드포워드 차원 1024, 4 헤드의 Transformer와 동일한 설정의 Grassmann 모델을 비교했다.
GrassmannLM은 TransformerLM 대비 약 10~15% 높은 퍼플렉시티를 보인다. 완벽한 대체는 아니다. 하지만 주목할 점은:
더 흥미로운 결과는 SNLI(자연어 추론) 태스크에서 나온다.
Grassmann-Plücker 헤드가 Transformer 헤드를 검증과 테스트 모두에서 근소하게 앞선다. 0.05% 차이는 크지 않지만, 어텐션 없는 모델이 어텐션 있는 모델을 이겼다는 사실 자체가 의미심장하다.
논문의 해석:
"명시적 기하학적 구조를 분류 헤드에 주입하면, 트랜스포머 헤드에 필적하거나 약간 앞설 수 있다."
특히 SNLI 같은 관계 추론(두 문장 사이의 관계 판단) 태스크에서 부분공간 기하학이 효과적이라는 점은 직관적으로도 납득된다 — 두 문장이 "함께 펼치는 의미 공간의 방향"을 포착하는 것이니까.
이 논문은 13~18M 파라미터 규모의 작은 실험이다. GPT-4나 Claude 같은 수천억 파라미터 모델을 대체할 수 있다는 주장이 아니다. 그렇다면 왜 주목해야 할까?
2017년 이후, AI 커뮤니티에는 일종의 어텐션 정통주의(attention orthodoxy) 가 자리잡았다. "더 많은 어텐션, 더 많은 헤드, 더 많은 레이어"가 성능의 답이라는 믿음이다.
하지만 2024~2026년, 이 정통주의에 균열이 생겼다:
이 논문은 이 흐름에서 가장 수학적으로 근본적인 질문을 던진다. "어텐션의 역할이 정확히 무엇이며, 같은 역할을 하는 더 구조화된 대안이 있는가?"
2026년의 AI 산업에서 가장 뜨거운 키워드 중 하나는 해석 가능성(interpretability) 이다. EU AI Act가 시행되고, 금융·의료·법률 등 규제 산업에서 "왜 그런 결론을 냈는지 설명하라"는 요구가 커지고 있다.
어텐션 기반 모델에서 해석 가능성은 본질적으로 어렵다. 어텐션 맵은 "이 토큰이 저 토큰을 봤다"는 정보는 주지만, 레이어를 관통하는 추론 경로를 추적하기는 매우 어렵다.
그래스만 접근법의 장점은 분석 대상이 근본적으로 달라진다는 것이다:
어텐션을 분석하는 것이 100만 개의 주식을 동시에 추적하는 것이라면, 그래스만 흐름을 분석하는 것은 지도 위의 경로를 추적하는 것이다. 경로에는 방향, 곡률, 속도 같은 소수의 글로벌 특성이 있다.
2026년, AI는 클라우드에서 현장(Edge) 으로 내려오고 있다. 스마트폰, IoT 기기, 자율주행 차량에서 실시간으로 동작해야 한다. 이 환경에서 O(N²) 복잡도는 치명적이다.
그래스만 레이어의 시퀀스 길이에 대한 선형 복잡도는 이 맥락에서 의미가 크다. 고정된 r과 윈도우 수 m에 대해:
다만 논문도 솔직히 인정한다: 현재 구현은 최적화된 GPU 어텐션 커널보다 실제로는 더 느리다. 플뤼커 좌표 계산과 텐서 재배열(reshape)에 오버헤드가 있기 때문이다. 이것은 아키텍처의 한계가 아니라 엔지니어링의 한계다 — FlashAttention이 어텐션의 이론적 복잡도를 바꾸지 않고도 실질적 속도를 혁신한 것처럼, 최적화된 그래스만 커널이 필요하다.
스케일에서의 검증 부재. 실험은 13~18M 파라미터에서만 수행되었다. GPT-4 규모(추정 1.7T 파라미터)에서도 유효한지는 알 수 없다. 현대 AI의 핵심 교훈 중 하나가 "작은 규모의 결과가 큰 규모에서 유지되리라는 보장이 없다"는 것인 만큼, 이 한계는 중요하다.
글로벌 문맥 포착의 한계. 로컬 윈도우 오프셋이 최대 16이다. 먼 거리의 의존성(예: 소설에서 1장에 등장한 인물이 10장에서 다시 언급될 때)을 얼마나 잘 포착하는지는 검증되지 않았다.
최적화된 구현 부재. FlashAttention처럼 GPU에 최적화된 커널이 아직 없다. 이론적 선형 복잡도의 이점이 실제로 발현되려면 엔지니어링 투자가 필요하다.
논문은 여러 후속 연구 방향을 제시한다:
이 논문을 단독으로 보면 하나의 제안에 불과하지만, 2024~2026년의 큰 흐름 속에서 보면 의미가 분명해진다.
| 시기 | 접근법 | 핵심 아이디어 | 어텐션과의 관계 |
|---|---|---|---|
| 2020~2022 | Linear Attention (Katharopoulos 등) | softmax를 커널 근사로 대체 | 어텐션을 근사 |
| 2021~2023 | Sparse Attention (BigBird, Longformer) | 일부 위치 쌍만 계산 | 어텐션을 간소화 |
| 2023~2024 | SSM/Mamba (Gu, Dao) | 상태 공간 모델로 시퀀스 처리 | 어텐션을 우회 |
| 2024 | RWKV (Peng 등) | 선형 RNN + 시간 혼합 | 어텐션을 대체 |
| 2025 | Grassmann Flows (이 논문) | 기하학적 다양체 위의 흐름 | 어텐션의 역할을 재정의 |
이 논문이 기존 대안들과 다른 점은 수학적 깊이다. 단순히 "어텐션 없이도 된다"가 아니라, "어텐션이 하는 일의 본질은 텐서 리프팅이며, 같은 목적을 더 구조화된 기하학으로 달성할 수 있다"는 원리적 주장을 한다.
솔직히, 가까운 미래에 어텐션이 사라지지는 않을 것이다. 어텐션은 이미 산업 전체의 인프라로 고착되었다. GPU 하드웨어, CUDA 라이브러리, 수만 개의 사전학습 모델이 어텐션에 최적화되어 있다.
하지만 이 논문이 보여주는 것은, 어텐션이 유일한 답은 아니라는 것이다. 논문의 결론을 인용하면:
"우리가 강력한 시퀀스 모델링에 근본적으로 필요한 것은 어텐션 그 자체가 아니라, 표현들이 자신이 거주하는 다양체 위에서 움직이는 원리적 방법이다."
이것은 깊은 통찰이다. AI 모델이 하는 일의 본질은 "모든 것을 모든 것과 비교하는 것"이 아니라, "의미 공간의 기하학적 구조 위에서 추론을 전개하는 것" 이라는 주장이다.
"Attention Is All You Need"가 던진 질문은 "어텐션이면 충분한가?"였고, 답은 Yes였다.
"Attention Is Not What You Need"가 던지는 질문은 "어텐션이 진짜 본질인가?" 이고, 답은 "아니다, 본질은 기하학이다" 라는 것이다.
13M 파라미터의 작은 실험이 수백억 달러 규모의 AI 산업을 뒤흔들지는 못한다. 하지만 과학의 역사에서, 가장 큰 변화는 종종 "당연하다고 생각했던 것이 당연하지 않을 수도 있다" 는 질문에서 시작되었다.
2017년에 "RNN이 반드시 필요한가?"라는 질문이 트랜스포머를 낳았듯, 2025년의 "어텐션이 반드시 필요한가?"라는 질문은 — 아직 답이 완성되지 않았지만 — 다음 패러다임의 씨앗이 될 수 있다.
그리고 그 패러다임의 핵심 키워드가 기하학이라는 점이, 이 논문을 특별하게 만든다.
이 글에서 다룬 논문: Zhang Chong, "Attention Is Not What You Need: Grassmann Flows as an Attention-Free Alternative for Sequence Modeling," arXiv:2512.19428 (2025).