
Attention의 모든 것: '집중'이 AI의 역사를 바꾸기까지
2014년, 한 박사과정생이 '신경망에게 집중력을 주자'는 아이디어로 번역의 벽을 넘었다. 3년 뒤, 8명의 구글 연구자가 '집중만 있으면 된다'고 선언했다. Attention 메커니즘의 역사, 직관적 이해, 그리고 트랜스포머 혁명의 전 과정을 추적한다.

2014년, 한 박사과정생이 '신경망에게 집중력을 주자'는 아이디어로 번역의 벽을 넘었다. 3년 뒤, 8명의 구글 연구자가 '집중만 있으면 된다'고 선언했다. Attention 메커니즘의 역사, 직관적 이해, 그리고 트랜스포머 혁명의 전 과정을 추적한다.

시끄러운 칵테일 파티를 상상해 보자. 수십 명이 동시에 이야기하고 있다. 그런데 누군가가 방 건너편에서 당신의 이름을 부르면, 모든 소음 속에서 그 목소리만 정확히 들린다.
이것이 어텐션(Attention) 이다. 쏟아지는 정보 속에서 지금 가장 관련 있는 것에 집중하는 능력.
인간은 이것을 자연스럽게 한다. 그런데 신경망은 2014년까지 이 능력이 없었다. 긴 문장을 번역할 때, 문장 전체를 하나의 고정된 벡터에 쑤셔 넣어야 했다. 마치 소설 한 권의 내용을 메모 한 장에 요약하고, 그 메모만 보고 소설을 복원하는 것과 같았다.
이 글은 그 한계가 어떻게 깨졌고, 그것이 어떻게 GPT, BERT, DALL-E, AlphaFold에 이르는 AI 혁명의 기초가 되었는지를 추적한다.
시퀀스 데이터를 처리하기 위한 첫 번째 해법은 순환 신경망(RNN) 이었다. 조던 네트워크(1986)와 엘만 네트워크(1990)가 출발점이었고, 1997년 호크라이터(Hochreiter) 와 슈미트후버(Schmidhuber) 가 기울기 소실 문제를 해결한 LSTM(Long Short-Term Memory) 을 발표하면서 본격적으로 사용되기 시작했다.
2014년, 두 개의 획기적 논문이 나왔다:
아이디어는 단순했다. 인코더가 입력 문장 전체를 읽어 하나의 고정 길이 벡터로 압축하고, 디코더가 이 벡터로부터 출력 문장을 생성한다.

이 구조의 치명적 결함은 정보 병목(information bottleneck) 이었다. 입력이 짧은 문장이면 괜찮지만, 문장이 길어지면 하나의 벡터에 모든 정보를 담기가 불가능해진다.
전화 게임(Chinese Whispers)을 떠올려 보자. 메시지가 사람에서 사람으로 전달될수록 원래 내용이 왜곡된다. RNN도 마찬가지다 — 시퀀스가 길어질수록 초반 토큰의 정보가 소실된다.
바단아우(Bahdanau) 등의 원 논문이 정확히 이 문제를 지적했다:
"고정 길이 벡터의 사용은 이 기본적인 인코더-디코더 구조의 성능 향상에 있어 병목이다."
드미트리 바단아우(Dzmitry Bahdanau) 는 벨라루스 출신으로, 당시 몬트리올 대학교(Mila)에서 요슈아 벤지오(Yoshua Bengio) 의 지도를 받는 박사과정생이었다. 그와 조경현(Kyunghyun Cho), 벤지오가 2014년 9월 1일 arXiv에 올린 논문은 모든 것을 바꿨다.
기존 Seq2Seq에서는 디코더가 인코더의 마지막 상태 하나만 받았다. 바단아우 어텐션에서는 디코더가 인코더의 모든 상태에 직접 접근한다.
바단아우의 가산 어텐션(additive attention) 은 작은 피드포워드 신경망으로 각 위치의 관련성 점수(energy)를 계산한다. 이것이 인간의 시각적 주의(visual attention)에서 영감을 받은 소프트 어텐션(soft attention) — 모든 위치를 확률적으로 참조하되, 관련 없는 부분에는 낮은 가중치를 부여한다.
| 모델 | BLEU (전체) | BLEU (No UNK) |
|---|---|---|
| RNN Encoder-Decoder (50단어) | 17.82 | 26.71 |
| RNN + Attention (50단어) | 26.75 | 34.16 |
| RNN + Attention (확장 학습) | 28.45 | 36.15 |
| Moses (구문 기반 통계 번역) | 33.30 | 35.63 |
어텐션 모델은 기존 RNN 대비 약 9 BLEU 포인트 향상을 달성했고, 확장 학습 후에는 오랜 기간 최고 성능이던 구문 기반 통계 번역(Moses)까지 넘어섰다.
루옹(Luong), 팜(Pham), 매닝(Manning) 은 2015년 EMNLP에서 바단아우의 가산 어텐션을 단순화했다. 작은 신경망 대신 단순 내적(dot-product) 으로 관련성 점수를 계산:
score(h_t, h_s) = h_t^T · h_s
더 빠르고 간단하면서도 효과적. 또한 전체 입력에 주목하는 글로벌 어텐션과 일부만 보는 로컬 어텐션을 구분했다.
쉬(Xu) 등은 2015년 ICML에서 "Show, Attend and Tell"을 발표해, 어텐션을 이미지 캡셔닝으로 확장했다. 이미지의 어느 영역에 집중하면서 설명 문장을 생성하는지를 시각화할 수 있게 되었다.
청, 동, 라파타(Cheng, Dong, Lapata, 2016) 가 처음으로 셀프 어텐션(self-attention) — 당시에는 "인트라 어텐션(intra-attention)"이라 불림 — 을 도입했다. 외부 입력이 아닌 같은 시퀀스 내에서 단어 간 관계를 학습하는 것이다. 이것이 트랜스포머의 핵심 구성 요소가 된다.

2017년 6월 12일, 8명의 구글 연구자가 역사상 가장 영향력 있는 AI 논문 중 하나를 arXiv에 올렸다.
제목은 비틀즈의 "All You Need Is Love"를 패러디한 것이다. 기술적 주장은 대담했다: 순환도 필요 없고, 컨볼루션도 필요 없다. 어텐션만 있으면 된다.
논문의 각주에 각 저자의 기여가 상세히 적혀 있다 — 이례적인 투명성이다:
에이단 고메즈는 당시 20세의 학부 인턴이었다. 그는 이후 AI 기업 Cohere를 공동 설립해 수십억 달러 가치의 회사로 키웠다 — 아마 테크 역사상 가장 성공적인 인턴일 것이다.
트랜스포머의 핵심은 Query(질의), Key(키), Value(값) 세 요소의 상호작용이다. 가장 직관적인 비유는 도서관 검색이다.
일반 데이터베이스는 정확히 일치하는 키만 반환하지만(하드 검색), 어텐션은 모든 키와의 유사도를 확률로 변환하는 소프트 검색이다.
Attention(Q, K, V) = softmax(QK^T / √d_k) × V
한국어 NLP 교재(ratsgo)의 비유가 적절하다: 멀티 헤드 어텐션은 "같은 문서를 두고 독자 여러 명이 함께 읽는 구조" 다.
예: "Mary gave roses to Susan"
트랜스포머는 8개의 어텐션 헤드가 병렬로 작동한다 (d_model=512, 헤드당 d_k=64). 각 헤드가 서로 다른 관계 유형을 학습한다.
"The animal didn't cross the street because it was too tired."
인간은 "it"이 "animal"을 가리킨다는 것을 즉시 안다. 셀프 어텐션도 마찬가지다 — "it"의 Query가 "animal"의 Key와 높은 유사도를 갖고, 그 정보가 "it"의 표현에 통합된다.
반면 "The animal didn't cross the street because it was too wide"에서는 "it"이 "street"를 가리킨다 — 어텐션 가중치가 완전히 다른 패턴을 보인다. 문맥에 따라 동적으로 변하는 것이 어텐션의 핵심이다.
트랜스포머의 가장 혁명적인 결정: 순환(recurrence)을 완전히 제거한 것이다. RNN은 토큰을 하나씩 순차적으로 처리해야 했지만, 트랜스포머는 모든 토큰을 동시에 병렬 처리한다.
| 속성 | RNN | 트랜스포머 |
|---|---|---|
| 처리 방식 | 순차적 (O(n) 단계) | 병렬 (O(1) 단계) |
| 장거리 의존성 | O(n) 연산 필요 | O(1) 연산 (직접 연결) |
| 학습 속도 | 느림 (병렬화 어려움) | 빠름 (GPU 활용 극대화) |
| 복잡도 | O(n·d²) | O(n²·d) |
대신 위치 정보가 사라지므로, 위치 인코딩(positional encoding) 을 사인/코사인 함수로 주입한다.
| 과제 | BLEU |
|---|---|
| WMT 2014 영-독 (기존 최고) | ~26 |
| 트랜스포머 (big) | 28.4 (+2 이상) |
| WMT 2014 영-불 (기존 최고) | ~41 |
| 트랜스포머 (big) | 41.8 (단일 모델 최고) |
이것을 8대의 P100 GPU로 3.5일 만에 달성했다.
현재 ArXiv AI 논문의 약 70% 가 트랜스포머를 언급한다. 텍스트, 이미지, 비디오, 오디오, 단백질, 로보틱스 — 사실상 모든 AI 영역이 트랜스포머 기반이다.
8명의 공저자는 모두 구글을 떠났다. 그들이 만든 것들:
| 저자 | 현재 | 비고 |
|---|---|---|
| 아시시 바스와니 | Essential AI (CEO) | 2022년 공동 설립 |
| 노암 샤지어 | Google DeepMind (VP) | Character.AI 설립 후 2024년 $27억 딜로 구글 복귀, Gemini 공동 리드 |
| 니키 파르마르 | Anthropic | Essential AI 거쳐 2025년 합류 |
| 야콥 우스코라이트 | Inceptive (CEO) | RNA 약물 설계 AI, 2024년 $1억 투자 유치 |
| 리온 존스 | Sakana AI (CTO) | 도쿄 기반 AI 연구소 |
| 에이단 고메즈 | Cohere (CEO) | 당시 20세 인턴, 현재 수십억 달러 기업 |
| 루카시 카이저 | OpenAI | o1/o3 추론 모델, GPT-4/5 기여 |
| 일리아 폴로수킨 | NEAR Protocol | 블록체인/AI |
2024년 3월 NVIDIA GTC에서, 8명 중 7명이 최초로 한 무대에 섰다. 젠슨 황은 이렇게 말했다:
"오늘 우리가 누리는 모든 것은 그 순간으로 거슬러 올라갈 수 있습니다."
노암 샤지어의 이야기는 특별히 주목할 만하다. 그는 1994년 국제수학올림피아드 금메달리스트로, 구글에 2000년에 입사했다. 트랜스포머 논문에서 스케일드 내적 어텐션, 멀티 헤드 어텐션, 위치 인코딩을 발명 — 사실상 핵심 기술 대부분을 설계했다.
이후 그는 LaMDA(구글의 대화형 AI)를 개발했지만, 구글이 제품 출시를 미루는 것에 좌절해 2022년 퇴사하고 Character.AI를 설립했다. 2024년 8월, 구글은 약 27억 달러 규모의 라이선싱 딜로 그를 다시 데려왔다 — 아마 기술 역사상 가장 비싼 개인 영입일 것이다.
셀프 어텐션의 계산 복잡도는 O(n²) — 시퀀스 길이의 제곱에 비례한다. 100만 토큰을 처리하려면 1조 번의 연산이 필요하다.
특히 Mamba-2 (2024) 는 상태 공간 이중성(SSD)을 증명해, SSM과 어텐션이 같은 수학적 가족에 속함을 보였다 — 어텐션과의 경쟁이 아니라 통합이 일어나고 있다.
크로스 어텐션(cross-attention) 이 서로 다른 모달리티를 결합하는 핵심 기술이 되었다. Stable Diffusion에서 텍스트 프롬프트가 이미지 생성을 안내하는 것도, CLIP 텍스트 인코딩이 UNet의 어텐션 층을 통해 노이즈 제거 과정에 주입되는 크로스 어텐션이다.
2014년, 벨라루스 출신의 박사과정생이 "신경망이 입력의 모든 부분을 동시에 볼 수 있게 하자"라는 아이디어를 논문으로 썼다. 3년 뒤, 구글의 8명이 "그것만으로 충분하다"고 선언했다.
그 이후 일어난 일은 AI 역사상 가장 빠른 혁명이었다. 8년 만에 어텐션 기반 모델은 텍스트를 쓰고, 이미지를 그리고, 코드를 짜고, 단백질 구조를 예측하고, 영상을 생성하게 되었다.
어텐션 메커니즘이 가르쳐 주는 것은 결국 이것이다:
모든 것을 기억하려 하지 말고, 지금 중요한 것에 집중하라.
인간이 수백만 년에 걸쳐 진화시킨 이 단순한 원리가, 인공지능의 가장 강력한 도구가 되었다.