coredot.today
Attention Is Not What You Need: 어텐션 없이도 AI가 '생각'할 수 있다면?
블로그로 돌아가기
어텐션트랜스포머그래스만 다양체시퀀스 모델링해석 가능성선형 복잡도

Attention Is Not What You Need: 어텐션 없이도 AI가 '생각'할 수 있다면?

2017년, 구글은 'Attention Is All You Need'로 AI 혁명을 열었다. 2025년 12월, 한 연구자가 같은 구조에 정면으로 반기를 든다 — 'Attention Is Not What You Need.' 어텐션 없이 기하학적 다양체 위에서 추론하는 새로운 시퀀스 모델링 패러다임을 해부한다.

코어닷투데이2026-03-2435

들어가며: 반역의 논문 제목

2017년, 8명의 구글 연구자가 AI 역사상 가장 유명한 논문을 발표했다. 제목은 "Attention Is All You Need" — 어텐션만 있으면 된다. 비틀즈의 "All You Need Is Love"를 패러디한 이 도발적인 제목은 예언이 되었다. 트랜스포머는 GPT, BERT, DALL-E, AlphaFold의 기반이 되었고, 2026년 현재 사실상 모든 대형 AI 모델의 뼈대다.

그런데 2025년 12월, 한 연구자가 정확히 그 제목을 뒤집는 논문을 arXiv에 올렸다.

논문 정보
"Attention Is Not What You Need: Grassmann Flows as an Attention-Free Alternative for Sequence Modeling"
저자: Zhang Chong
arXiv: 2512.19428 (2025년 12월 22일)
분야: 기계학습(cs.LG), 인공지능(cs.AI), 대수기하학(math.AG)

핵심 주장: 셀프 어텐션은 본질적으로 "텐서 리프팅(tensor lifting)"이며, 이를 그래스만 다양체(Grassmann manifold) 위의 기하학적 흐름으로 대체하면 어텐션 없이도 경쟁력 있는 시퀀스 모델링이 가능하다.

주장이 대담하다. 하지만 이 논문이 흥미로운 이유는 단순히 "어텐션이 필요 없다"고 말해서가 아니다. 어텐션이 실제로 무엇을 하고 있는지를 수학적으로 해부하고, 그 역할을 더 구조화된 기하학으로 대체할 수 있음을 보여준다. 마치 블랙박스의 뚜껑을 열어젖힌 셈이다.


1장: 어텐션은 어떻게 왕좌에 올랐는가

이 논문을 이해하려면 먼저 어텐션이 왜 이렇게까지 중요해졌는지를 알아야 한다.

고정 벡터의 비극 (2014년 이전)

초기 시퀀스 모델링의 핵심 도전은 가변 길이 입력을 고정 길이로 압축하는 것이었다. RNN 인코더-디코더 구조에서 인코더는 입력 문장 전체를 하나의 벡터에 쑤셔 넣었다.

소설 한 권을 포스트잇 한 장에 요약하고, 그 포스트잇만 보고 소설을 복원하라고 하는 것과 같다.

문장이 길어지면 초반 정보가 증발했다. 이 정보 병목(information bottleneck) 이 기계번역 성능의 천장이었다.

어텐션의 등장: "모든 단어를 다 보자" (2014년)

2014년, 바단아우(Bahdanau)가 해법을 냈다. 디코더가 출력 단어를 생성할 때, 인코더의 모든 위치를 직접 참조하고 관련 있는 부분에 집중(attend) 한다. 포스트잇 대신, 소설 원문을 펼쳐놓고 필요한 페이지를 그때그때 찾아보는 것이다.

트랜스포머: 어텐션으로 전부 만들겠다 (2017년)

2017년, Vaswani 등은 한 단계 더 나아갔다. RNN을 완전히 걷어내고, 셀프 어텐션(self-attention) 만으로 시퀀스를 처리하는 트랜스포머를 제안했다. 셀프 어텐션에서는 시퀀스의 모든 위치가 다른 모든 위치를 "본다."

입력 시퀀스: "나는 오늘 커피를 마셨다"
셀프 어텐션: 모든 단어 쌍의 관련성 점수 계산 (5×5 = 25개)
"커피를"은 "마셨다"에 높은 가중치 → 문맥 이해

이 방식은 놀라울 정도로 효과적이었다. 병렬화가 가능해 학습이 빨랐고, 긴 거리의 의존성도 한 번에 잡아냈다. 트랜스포머는 NLP를 넘어 비전, 오디오, 단백질 구조 예측까지 모든 영역을 접수했다.

그런데 왕좌에 올라가면 안 보이던 것들이 보이기 시작한다.


2장: 어텐션의 세 가지 그림자

그림자 1: O(N²)의 저주

셀프 어텐션은 시퀀스의 모든 위치 쌍을 계산한다. 시퀀스 길이가 N이면, N×N 어텐션 행렬이 필요하다.

420만 N = 2,048 GPT-3 수준
164억 N = 128,000 GPT-4 수준
1조 N = 1,000,000 100만 토큰 시대

시퀀스를 2배 늘리면 계산량은 4배. 이것이 2023년까지 컨텍스트 윈도우가 제한적이었던 근본 이유다. FlashAttention 같은 메모리 최적화로 엄청난 진전이 있었지만, 근본적인 O(N²) 복잡도는 그대로다.

그림자 2: 블랙박스 — 해석할 수 없는 추론

어텐션 맵을 시각화하면 "이 단어가 저 단어를 봤다"는 것은 알 수 있다. 하지만 12개 레이어 × 12개 헤드 = 144개의 서로 다른 어텐션 패턴이 생겨나고, 이것들이 어떻게 상호작용해서 최종 추론에 이르는지는 아무도 모른다.

논문은 이 문제를 정확히 짚는다:

"어텐션 텐서의 진화하는 컬렉션을 요약할 수 있는 소수의 글로벌 불변량(invariant)이 존재하지 않는다."

비유하자면, 어텐션은 마치 100명이 동시에 속삭이는 회의실과 같다. 각 속삭임은 들을 수 있지만, 전체 회의가 어떤 결론으로 향하고 있는지는 파악하기 어렵다.

그림자 3: 텐서 리프팅 — 통제할 수 없는 차원 폭발

이 논문의 핵심 통찰은 여기에 있다. 셀프 어텐션이 실제로 무엇을 하는지 수학적으로 분석한 것이다.

셀프 어텐션의 계산 과정을 보자:

  1. 입력 벡터 H에서 Query(Q), Key(K), Value(V) 를 만든다
  2. Q와 K의 내적으로 N×N 호환성 행렬을 만든다
  3. softmax를 적용하고, V와 곱해서 출력을 얻는다

논문의 핵심 관찰: 2단계에서 d차원 벡터들의 공간이 N×N 쌍별 상호작용 공간으로 "리프팅(lifting)"된다. 차원이 폭발하는 것이다.

텐서 리프팅(Tensor Lifting)이란?
낮은 차원높은 차원으로 끌어올리는 것.

원래 각 토큰은 d차원 벡터 하나다. 하지만 어텐션을 거치면, 모든 위치 쌍 (i, j)에 대해, 모든 헤드에서, 모든 레이어에서 별도의 학습된 가중치가 생긴다.

비유: 도시의 인구를 조사한다고 하자.
— 각 시민에 대한 정보 수집 = 선형적 (N명)
— 모든 시민 쌍의 관계를 조사 = 이차적 (N² 쌍)

어텐션은 후자다. 100만 명 도시에서 1조 개의 관계를 추적하는 셈이다. 강력하지만, 이 관계들의 전체 패턴을 요약하거나 추적하는 것은 사실상 불가능하다.

논문의 주장은 이렇다: 이 텐서 리프팅이 어텐션 기반 모델의 해석 불가능성의 수학적 근원이다. 매우 세밀하고 강력하지만, 바로 그 세밀함 때문에 전체를 조망할 수 있는 구조적 "요약"이 불가능해진다.


3장: 기하학이라는 새로운 렌즈

여기서 논문은 대담한 전환을 시도한다. "어텐션이 문제라면, 대안은 무엇인가?"

추론은 기하학이다

논문은 시퀀스 모델링을 기하학의 관점에서 재해석한다:

  1. 각 토큰의 숨겨진 상태(hidden state)는 고차원 의미 다양체(semantic manifold) 위의 점이다
  2. 어텐션은 이 점들을 쌍별 상호작용의 텐서 공간으로 끌어올린다
  3. 추론이란 이 기하학적 구조를 반복적으로 샘플링하고 정제하는 과정이다

이것을 일상적 비유로 풀어보자.

당신이 서울 지도를 보고 있다고 하자. 각 건물(토큰)은 지도 위의 점이다. 어텐션 방식은 모든 건물 쌍 사이의 거리·관계·유사성을 계산하는 것이다 — 경복궁과 남산타워, 경복궁과 강남역, 경복궁과 이태원... 건물이 만 개면 1억 개의 관계를 추적한다. 강력하지만 비효율적이고, 도시의 전체 구조를 한눈에 보기 어렵다.

그래스만 방식은 다르다. 건물들을 "동네(부분공간)"로 묶고, 동네의 기하학적 방향성만 추적한다. 건대입구역 근처 건물 3개를 하나의 "부분공간"으로 보고, 그 부분공간이 합정동 부분공간과 어떤 각도로 놓여 있는지를 본다. 전체 관계의 수는 극적으로 줄어들지만, 도시의 구조적 패턴은 포착된다.

그래스만 다양체란 무엇인가?

그래스만 다양체 Gr(k, r) — 직관적 이해
정의: r차원 공간에서 k차원 부분공간을 모두 모은 집합.

일상 비유: 3차원 공간(우리가 사는 세계)에서 가능한 모든 2차원 평면을 생각해 보자. 수평 바닥, 수직 벽, 비스듬한 경사면... 이 모든 평면들의 집합이 Gr(2, 3)이다.

더 쉽게: 3차원 공간에서 가능한 모든 직선(1차원 부분공간)의 집합은 Gr(1, 3) — 이것은 우리가 잘 아는 사영 평면(projective plane)이다.

핵심 성질:
— 유한 차원: Gr(k, r)의 차원은 k(r − k). 텐서 공간처럼 무한히 커지지 않는다
— 구조적: 대수적 관계(Plücker relations)로 정확히 기술된다
— 매끄러운 다양체: 미분기하학의 도구로 분석 가능

그래스만 다양체는 수학에서 100년 넘게 연구된 고전적 대상이다. 컴퓨터 비전의 부분공간 클러스터링, 저랭크 행렬 근사, 최적화 알고리즘 등에서 이미 활용되어 왔다. 하지만 시퀀스 모델링의 핵심 혼합 메커니즘으로 사용된 것은 이 논문이 처음이다.

플뤼커 좌표: 부분공간을 숫자로 표현하기

그래스만 다양체 위의 점(= 부분공간)을 실제로 계산에 사용하려면 좌표가 필요하다. 여기서 등장하는 것이 플뤼커 좌표(Plücker coordinates) 다.

두 벡터 uv가 2차원 부분공간을 정의한다고 하자. 이 부분공간의 플뤼커 좌표는:

p_ij = u_i × v_j − u_j × v_i    (1 ≤ i < j ≤ r)

이것은 두 벡터의 외적(wedge product) 으로, 부분공간의 "방향"을 인코딩한다. 핵심은:

  • 같은 부분공간이면 (기저를 어떻게 잡든) 플뤼커 좌표는 스칼라 배수 차이만 난다
  • r차원 공간에서 2차원 부분공간의 플뤼커 좌표는 r(r-1)/2 개의 숫자 — 차원이 통제된다
  • 플뤼커 좌표 사이에는 알려진 대수적 관계가 성립한다 — 구조가 있다

비유: GPS 좌표가 지구 표면의 점을 (위도, 경도) 두 숫자로 표현하듯, 플뤼커 좌표는 고차원 부분공간을 유한 개의 숫자로 표현한다. 그리고 GPS에서 "위도는 -9090, 경도는 -180180"이라는 제약이 있듯, 플뤼커 좌표에도 명시적인 대수적 제약이 있다.


4장: Causal Grassmann Layer — 아키텍처 해부

이제 핵심이다. 이 논문은 어텐션을 Causal Grassmann Mixing Layer로 대체한다. 단계별로 분해해 보자.

Step 1: 차원 축소
h_t ∈ ℝ^d → z_t ∈ ℝ^r (r ≪ d)
Step 2: 로컬 윈도우 페어링
(z_t, z_{t+Δ}) — 인과적 쌍 구성
Step 3: 플뤼커 인코딩
토큰 쌍 → Gr(2, r) 위의 점 → 플뤼커 좌표 벡터
Step 4: 투영 + 집계
플뤼커 벡터 → 모델 차원으로 투영, 윈도우별 평균
Step 5: 게이트 퓨전
원본 h_t와 기하학적 특성 g_t를 시그모이드 게이트로 혼합
Step 6: 피드포워드 블록
표준 FFN + 잔차 연결 + LayerNorm

Step 1: 차원 축소 — "핵심만 추려라"

모델 차원 d = 256에서 r = 32로 줄인다. 8배 축소.

z_t = W_red × h_t + b_red     (W_red ∈ ℝ^{r×d})

이것은 마치 긴 문단을 핵심 키워드 몇 개로 요약하는 것이다. 어텐션이 전체 256차원에서 쌍별 연산을 하는 반면, 그래스만 레이어는 32차원 축소 공간에서 작업한다.

Step 2: 로컬 윈도우 페어링 — "이웃만 보되, 다양한 거리에서"

모든 위치 쌍을 보는 대신, 미리 정한 오프셋으로 인접 토큰들만 쌍을 이룬다.

윈도우 집합: 𝒲 = {1, 2, 4, 8, 12, 16}

위치 t에서는 t+1, t+2, t+4, t+8, t+12, t+16 위치의 토큰과만 쌍을 이룬다. 인과적(causal) 이므로 미래 토큰은 참조하지 않는다.

비유:** 어텐션이 교실의 모든 학생에게 질문하는 것이라면, 그래스만 레이어는 **바로 옆 친구, 두 칸 앞 친구, 네 칸 앞 친구...에게만 질문한다. 질문 수는 훨씬 적지만, 다양한 거리에서 정보를 수집한다.

Step 3: 플뤼커 인코딩 — 핵심 혁신

각 토큰 쌍 (z_t, z_{t+Δ})을 2차원 부분공간으로 해석하고, 플뤼커 좌표로 인코딩한다.

p_ij^(Δ)(t) = z_{t,i} × z_{t+Δ,j} − z_{t,j} × z_{t+Δ,i}

이 연산은 두 토큰의 축소된 표현이 함께 펼치는 2차원 평면의 방향을 인코딩한다. r = 32이면 플뤼커 벡터의 차원은 r(r-1)/2 = 496개.

정규화까지 적용:

p̂_t^(Δ) = p_t^(Δ) / max(‖p_t^(Δ)‖₂, ε)

핵심 차이: 어텐션의 내적(dot product)은 두 벡터가 "얼마나 같은 방향인지"를 측정한다. 반면 플뤼커 좌표의 외적(wedge product)은 두 벡터가 "함께 어떤 평면을 정의하는지" 를 측정한다. 두 벡터의 관계의 기하학적 구조를 포착하는 것이다.

Step 4-6: 투영, 게이트, 피드포워드

플뤼커 특성을 다시 모델 차원으로 투영하고, 시그모이드 게이트로 원본 표현과 혼합한다.

α_t = σ(W_gate × [h_t; g_t] + b_gate)
h̃_t = α_t ⊙ h_t + (1 − α_t) ⊙ g_t

게이트가 중요한 이유: 모든 위치에서 기하학적 정보가 동일하게 유용하지는 않다. 게이트가 "여기서는 원본 표현을 더 쓰고, 저기서는 기하학적 특성을 더 쓰겠다" 고 위치별로 조절한다.


5장: 어텐션 vs 그래스만 — 작동 방식 비교

두 접근법의 근본적 차이를 정리하자.

셀프 어텐션 vs Grassmann Mixing
셀프 어텐션 Transformer 모든 위치 쌍의 상호작용을 N×N 텐서로 계산. O(N²) 복잡도. 매우 유연하지만 구조적 제약 없음
Grassmann Mixing 이 논문 로컬 윈도우의 토큰 쌍을 다양체 위의 부분공간으로 인코딩. O(N) 복잡도. 기하학적 구조가 내장됨
셀프 어텐션Grassmann Mixing
상호작용 범위모든 위치 ↔ 모든 위치 (글로벌)로컬 윈도우 (오프셋 1~16)
핵심 연산내적(dot product) + softmax외적(wedge product) + 정규화
수학적 공간비구조적 텐서 공간 ℝ^{N×N}구조적 다양체 Gr(2, r)
복잡도O(N²d)O(Nd²) (N에 대해 선형)
해석 가능성어텐션 맵 시각화 가능하나 글로벌 요약 어려움유한 차원 불변량으로 분석 가능
자유도레이어당 N²×H 개레이어당 고정 (r, 윈도우 수에 의존)

6장: 실험 결과 — 어텐션 없이 얼마나 되나?

언어 모델링: Wikitext-2

논문은 d = 256, 피드포워드 차원 1024, 4 헤드의 Transformer와 동일한 설정의 Grassmann 모델을 비교했다.

Validation Perplexity (낮을수록 좋음)
TransformerLM 6L 248.4
GrassmannLM 6L 275.7
TransformerLM 12L 235.2
GrassmannLM 12L 261.1

GrassmannLM은 TransformerLM 대비 약 10~15% 높은 퍼플렉시티를 보인다. 완벽한 대체는 아니다. 하지만 주목할 점은:

  • 레이어가 깊어질수록 격차가 줄어든다 — 6층에서 11% → 12층에서 11%로, 깊이가 로컬 혼합의 한계를 보상한다
  • 어텐션이 전혀 없는 모델이 비슷한 파라미터 수로 이 정도 성능을 낸다는 것 자체가 의미 있다
  • 파라미터 수는 오히려 Grassmann 모델이 약간 더 많다 (13.0M vs 12.6M)

자연어 추론: SNLI

더 흥미로운 결과는 SNLI(자연어 추론) 태스크에서 나온다.

0.8545 Transformer 헤드 검증 정확도
0.8550 Grassmann-Plücker 헤드 검증 정확도
0.8511 Transformer 헤드 테스트 정확도
0.8538 Grassmann-Plücker 헤드 테스트 정확도

Grassmann-Plücker 헤드가 Transformer 헤드를 검증과 테스트 모두에서 근소하게 앞선다. 0.05% 차이는 크지 않지만, 어텐션 없는 모델이 어텐션 있는 모델을 이겼다는 사실 자체가 의미심장하다.

논문의 해석:

"명시적 기하학적 구조를 분류 헤드에 주입하면, 트랜스포머 헤드에 필적하거나 약간 앞설 수 있다."

특히 SNLI 같은 관계 추론(두 문장 사이의 관계 판단) 태스크에서 부분공간 기하학이 효과적이라는 점은 직관적으로도 납득된다 — 두 문장이 "함께 펼치는 의미 공간의 방향"을 포착하는 것이니까.


7장: 왜 이것이 중요한가 — 2026년의 맥락

이 논문은 13~18M 파라미터 규모의 작은 실험이다. GPT-4나 Claude 같은 수천억 파라미터 모델을 대체할 수 있다는 주장이 아니다. 그렇다면 왜 주목해야 할까?

1. "어텐션이 전부"라는 도그마에 대한 건강한 도전

2017년 이후, AI 커뮤니티에는 일종의 어텐션 정통주의(attention orthodoxy) 가 자리잡았다. "더 많은 어텐션, 더 많은 헤드, 더 많은 레이어"가 성능의 답이라는 믿음이다.

하지만 2024~2026년, 이 정통주의에 균열이 생겼다:

2023년: Mamba (S4/SSM) — 상태 공간 모델로 어텐션 없이 트랜스포머급 성능
2024년: RWKV — 선형 복잡도의 RNN 부활
2024년: Jamba — Mamba + Transformer 하이브리드
2025년: Grassmann Flows — 기하학적 다양체로 어텐션 대체

이 논문은 이 흐름에서 가장 수학적으로 근본적인 질문을 던진다. "어텐션의 역할이 정확히 무엇이며, 같은 역할을 하는 더 구조화된 대안이 있는가?"

2. 해석 가능한 AI를 향한 길

2026년의 AI 산업에서 가장 뜨거운 키워드 중 하나는 해석 가능성(interpretability) 이다. EU AI Act가 시행되고, 금융·의료·법률 등 규제 산업에서 "왜 그런 결론을 냈는지 설명하라"는 요구가 커지고 있다.

어텐션 기반 모델에서 해석 가능성은 본질적으로 어렵다. 어텐션 맵은 "이 토큰이 저 토큰을 봤다"는 정보는 주지만, 레이어를 관통하는 추론 경로를 추적하기는 매우 어렵다.

그래스만 접근법의 장점은 분석 대상이 근본적으로 달라진다는 것이다:

  • 어텐션: 진화하는 N×N 텐서들의 컬렉션 → 분석 대상이 계속 커진다
  • 그래스만: 유한 차원 다양체 위의 궤적(trajectory) → 미분기하학으로 분석 가능

어텐션을 분석하는 것이 100만 개의 주식을 동시에 추적하는 것이라면, 그래스만 흐름을 분석하는 것은 지도 위의 경로를 추적하는 것이다. 경로에는 방향, 곡률, 속도 같은 소수의 글로벌 특성이 있다.

3. Edge AI와 선형 복잡도

2026년, AI는 클라우드에서 현장(Edge) 으로 내려오고 있다. 스마트폰, IoT 기기, 자율주행 차량에서 실시간으로 동작해야 한다. 이 환경에서 O(N²) 복잡도는 치명적이다.

그래스만 레이어의 시퀀스 길이에 대한 선형 복잡도는 이 맥락에서 의미가 크다. 고정된 r과 윈도우 수 m에 대해:

  • 어텐션: O(L²d) — 시퀀스 2배 → 계산 4배
  • 그래스만: O(Ld²) — 시퀀스 2배 → 계산 2배

다만 논문도 솔직히 인정한다: 현재 구현은 최적화된 GPU 어텐션 커널보다 실제로는 더 느리다. 플뤼커 좌표 계산과 텐서 재배열(reshape)에 오버헤드가 있기 때문이다. 이것은 아키텍처의 한계가 아니라 엔지니어링의 한계다 — FlashAttention이 어텐션의 이론적 복잡도를 바꾸지 않고도 실질적 속도를 혁신한 것처럼, 최적화된 그래스만 커널이 필요하다.


8장: 한계와 미래 — 솔직한 평가

이 논문이 아직 증명하지 못한 것

스케일에서의 검증 부재. 실험은 13~18M 파라미터에서만 수행되었다. GPT-4 규모(추정 1.7T 파라미터)에서도 유효한지는 알 수 없다. 현대 AI의 핵심 교훈 중 하나가 "작은 규모의 결과가 큰 규모에서 유지되리라는 보장이 없다"는 것인 만큼, 이 한계는 중요하다.

글로벌 문맥 포착의 한계. 로컬 윈도우 오프셋이 최대 16이다. 먼 거리의 의존성(예: 소설에서 1장에 등장한 인물이 10장에서 다시 언급될 때)을 얼마나 잘 포착하는지는 검증되지 않았다.

최적화된 구현 부재. FlashAttention처럼 GPU에 최적화된 커널이 아직 없다. 이론적 선형 복잡도의 이점이 실제로 발현되려면 엔지니어링 투자가 필요하다.

논문이 제시하는 미래 방향

논문은 여러 후속 연구 방향을 제시한다:

  1. 글로벌 불변량: 시퀀스 전체의 "평균 그래스만 방향," 주성분 방향, 곡률 같은 통계량을 보조 입력으로 주입
  2. 더 풍부한 그래스만 구조: 현재 k = 2(2차원 부분공간)만 사용. k > 2로 확장하면 더 복잡한 관계를 인코딩 가능
  3. 하이브리드 아키텍처: 그래스만 믹싱 + SSM(상태 공간 모델) 조합
  4. 체계적 해석 가능성 연구: 레이어별 부분공간 궤적의 시각화와 분석

9장: 더 넓은 그림 — "어텐션 이후"의 풍경

이 논문을 단독으로 보면 하나의 제안에 불과하지만, 2024~2026년의 큰 흐름 속에서 보면 의미가 분명해진다.

"어텐션 다음은 무엇인가"라는 질문의 계보

시기접근법핵심 아이디어어텐션과의 관계
2020~2022Linear Attention (Katharopoulos 등)softmax를 커널 근사로 대체어텐션을 근사
2021~2023Sparse Attention (BigBird, Longformer)일부 위치 쌍만 계산어텐션을 간소화
2023~2024SSM/Mamba (Gu, Dao)상태 공간 모델로 시퀀스 처리어텐션을 우회
2024RWKV (Peng 등)선형 RNN + 시간 혼합어텐션을 대체
2025Grassmann Flows (이 논문)기하학적 다양체 위의 흐름어텐션의 역할을 재정의

이 논문이 기존 대안들과 다른 점은 수학적 깊이다. 단순히 "어텐션 없이도 된다"가 아니라, "어텐션이 하는 일의 본질은 텐서 리프팅이며, 같은 목적을 더 구조화된 기하학으로 달성할 수 있다"는 원리적 주장을 한다.

어텐션은 사라질까?

솔직히, 가까운 미래에 어텐션이 사라지지는 않을 것이다. 어텐션은 이미 산업 전체의 인프라로 고착되었다. GPU 하드웨어, CUDA 라이브러리, 수만 개의 사전학습 모델이 어텐션에 최적화되어 있다.

하지만 이 논문이 보여주는 것은, 어텐션이 유일한 답은 아니라는 것이다. 논문의 결론을 인용하면:

"우리가 강력한 시퀀스 모델링에 근본적으로 필요한 것은 어텐션 그 자체가 아니라, 표현들이 자신이 거주하는 다양체 위에서 움직이는 원리적 방법이다."

이것은 깊은 통찰이다. AI 모델이 하는 일의 본질은 "모든 것을 모든 것과 비교하는 것"이 아니라, "의미 공간의 기하학적 구조 위에서 추론을 전개하는 것" 이라는 주장이다.


마치며: 제목이 던지는 진짜 질문

"Attention Is All You Need"가 던진 질문은 "어텐션이면 충분한가?"였고, 답은 Yes였다.

"Attention Is Not What You Need"가 던지는 질문은 "어텐션이 진짜 본질인가?" 이고, 답은 "아니다, 본질은 기하학이다" 라는 것이다.

13M 파라미터의 작은 실험이 수백억 달러 규모의 AI 산업을 뒤흔들지는 못한다. 하지만 과학의 역사에서, 가장 큰 변화는 종종 "당연하다고 생각했던 것이 당연하지 않을 수도 있다" 는 질문에서 시작되었다.

2017년에 "RNN이 반드시 필요한가?"라는 질문이 트랜스포머를 낳았듯, 2025년의 "어텐션이 반드시 필요한가?"라는 질문은 — 아직 답이 완성되지 않았지만 — 다음 패러다임의 씨앗이 될 수 있다.

그리고 그 패러다임의 핵심 키워드가 기하학이라는 점이, 이 논문을 특별하게 만든다.


부록: 핵심 용어 정리

주요 개념 한눈에 보기
텐서 리프팅(Tensor Lifting): 저차원 표현을 고차원 쌍별 상호작용 공간으로 끌어올리는 것. 셀프 어텐션의 핵심 메커니즘.

그래스만 다양체 Gr(k, r): r차원 공간에서 가능한 모든 k차원 부분공간의 집합. 유한 차원의 매끄러운 다양체.

플뤼커 좌표(Plücker Coordinates): 그래스만 다양체 위의 점(부분공간)을 유한 개의 숫자로 표현하는 방법. 외적(wedge product)으로 계산.

인과적 그래스만 믹싱(Causal Grassmann Mixing): 이 논문이 제안하는 어텐션 대체 레이어. 로컬 윈도우의 토큰 쌍을 그래스만 다양체 위의 부분공간으로 인코딩하고, 게이트 퓨전으로 원래 표현에 혼합.

외적(Wedge Product): 두 벡터가 "함께 펼치는 평면"을 수학적으로 표현하는 연산. 내적이 "유사도"를 측정한다면, 외적은 "관계의 기하학적 구조"를 측정.

이 글에서 다룬 논문: Zhang Chong, "Attention Is Not What You Need: Grassmann Flows as an Attention-Free Alternative for Sequence Modeling," arXiv:2512.19428 (2025).