어텐션트랜스포머Attention Is All You Need자연어처리딥러닝

Attention의 모든 것: '집중'이 AI의 역사를 바꾸기까지

2014년, 한 박사과정생이 '신경망에게 집중력을 주자'는 아이디어로 번역의 벽을 넘었다. 3년 뒤, 8명의 구글 연구자가 '집중만 있으면 된다'고 선언했다. Attention 메커니즘의 역사, 직관적 이해, 그리고 트랜스포머 혁명의 전 과정을 추적한다.

코어닷투데이2025-08-0530분

들어가며: 칵테일 파티에서 AI를 이해하다

로봇이 긴 두루마리를 읽으며 중요한 단어에 스포트라이트를 비추는 모습

시끄러운 칵테일 파티를 상상해 보자. 수십 명이 동시에 이야기하고 있다. 그런데 누군가가 방 건너편에서 당신의 이름을 부르면, 모든 소음 속에서 그 목소리만 정확히 들린다.

이것이 어텐션(Attention) 이다. 쏟아지는 정보 속에서 지금 가장 관련 있는 것에 집중하는 능력.

인간은 이것을 자연스럽게 한다. 그런데 신경망은 2014년까지 이 능력이 없었다. 긴 문장을 번역할 때, 문장 전체를 하나의 고정된 벡터에 쑤셔 넣어야 했다. 마치 소설 한 권의 내용을 메모 한 장에 요약하고, 그 메모만 보고 소설을 복원하는 것과 같았다.

이 글은 그 한계가 어떻게 깨졌고, 그것이 어떻게 GPT, BERT, DALL-E, AlphaFold에 이르는 AI 혁명의 기초가 되었는지를 추적한다.

1부: 병목 — 긴 문장의 비극

순환 신경망(RNN)과 기억의 한계

시퀀스 데이터를 처리하기 위한 첫 번째 해법은 순환 신경망(RNN) 이었다. 조던 네트워크(1986)와 엘만 네트워크(1990)가 출발점이었고, 1997년 호크라이터(Hochreiter) 와 슈미트후버(Schmidhuber) 가 기울기 소실 문제를 해결한 LSTM(Long Short-Term Memory) 을 발표하면서 본격적으로 사용되기 시작했다.

Seq2Seq: 인코더-디코더의 등장 (2014년)

2014년, 두 개의 획기적 논문이 나왔다:

조경현(Cho) 등 (EMNLP 2014): GRU(Gated Recurrent Unit)와 RNN 인코더-디코더 프레임워크 제안
수츠케버(Sutskever), 비냘스(Vinyals), 레(Le) (NIPS 2014): 다층 LSTM 인코더-디코더로 기계번역. Google 소속

아이디어는 단순했다. 인코더가 입력 문장 전체를 읽어 하나의 고정 길이 벡터로 압축하고, 디코더가 이 벡터로부터 출력 문장을 생성한다.

문제: 정보 병목

정보 병목 vs. 어텐션: 좁은 깔때기를 통과하며 정보가 손실되는 것(왼쪽)과 직접 연결로 정보를 보존하는 것(오른쪽)

이 구조의 치명적 결함은 정보 병목(information bottleneck) 이었다. 입력이 짧은 문장이면 괜찮지만, 문장이 길어지면 하나의 벡터에 모든 정보를 담기가 불가능해진다.

전화 게임(Chinese Whispers)을 떠올려 보자. 메시지가 사람에서 사람으로 전달될수록 원래 내용이 왜곡된다. RNN도 마찬가지다 — 시퀀스가 길어질수록 초반 토큰의 정보가 소실된다.

바단아우(Bahdanau) 등의 원 논문이 정확히 이 문제를 지적했다:

"고정 길이 벡터의 사용은 이 기본적인 인코더-디코더 구조의 성능 향상에 있어 병목이다."

2부: 돌파 — "집중하라"

바단아우 어텐션의 탄생 (2014년 9월)

드미트리 바단아우(Dzmitry Bahdanau) 는 벨라루스 출신으로, 당시 몬트리올 대학교(Mila)에서 요슈아 벤지오(Yoshua Bengio) 의 지도를 받는 박사과정생이었다. 그와 조경현(Kyunghyun Cho), 벤지오가 2014년 9월 1일 arXiv에 올린 논문은 모든 것을 바꿨다.

핵심 논문

Bahdanau, Cho, Bengio (2015)
"Neural Machine Translation by Jointly Learning to Align and Translate"
ICLR 2015 (구두 발표). arXiv: 1409.0473 (2014년 9월 1일)

핵심 아이디어: 디코더가 출력 단어를 생성할 때마다, 입력 문장의 모든 위치를 살펴보고 가장 관련 있는 부분에 집중(attend)한다.

어텐션이 작동하는 방식

기존 Seq2Seq에서는 디코더가 인코더의 마지막 상태 하나만 받았다. 바단아우 어텐션에서는 디코더가 인코더의 모든 상태에 직접 접근한다.

인코더: 입력의 모든 단어를 숨긴 상태(h₁, h₂, ..., hₙ)로 변환

↓

어텐션: "이번 출력 단어에 어떤 입력 단어가 중요한가?"

↓

각 입력 위치에 가중치(α) 부여 → 가중 합 = 문맥 벡터(context)

↓

디코더: 문맥 벡터 + 이전 상태로 다음 단어 생성

바단아우의 가산 어텐션(additive attention) 은 작은 피드포워드 신경망으로 각 위치의 관련성 점수(energy)를 계산한다. 이것이 인간의 시각적 주의(visual attention)에서 영감을 받은 소프트 어텐션(soft attention) — 모든 위치를 확률적으로 참조하되, 관련 없는 부분에는 낮은 가중치를 부여한다.

결과: 긴 문장의 벽을 넘다

모델	BLEU (전체)	BLEU (No UNK)
RNN Encoder-Decoder (50단어)	17.82	26.71
RNN + Attention (50단어)	26.75	34.16
RNN + Attention (확장 학습)	28.45	36.15
Moses (구문 기반 통계 번역)	33.30	35.63

어텐션 모델은 기존 RNN 대비 약 9 BLEU 포인트 향상을 달성했고, 확장 학습 후에는 오랜 기간 최고 성능이던 구문 기반 통계 번역(Moses)까지 넘어섰다.

3부: 어텐션의 진화

루옹의 곱셈 어텐션 (2015년)

루옹(Luong), 팜(Pham), 매닝(Manning) 은 2015년 EMNLP에서 바단아우의 가산 어텐션을 단순화했다. 작은 신경망 대신 단순 내적(dot-product) 으로 관련성 점수를 계산:

score(h_t, h_s) = h_t^T · h_s

더 빠르고 간단하면서도 효과적. 또한 전체 입력에 주목하는 글로벌 어텐션과 일부만 보는 로컬 어텐션을 구분했다.

이미지에도 어텐션을 (2015년)

쉬(Xu) 등은 2015년 ICML에서 "Show, Attend and Tell"을 발표해, 어텐션을 이미지 캡셔닝으로 확장했다. 이미지의 어느 영역에 집중하면서 설명 문장을 생성하는지를 시각화할 수 있게 되었다.

셀프 어텐션의 등장 (2016년)

청, 동, 라파타(Cheng, Dong, Lapata, 2016) 가 처음으로 셀프 어텐션(self-attention) — 당시에는 "인트라 어텐션(intra-attention)"이라 불림 — 을 도입했다. 외부 입력이 아닌 같은 시퀀스 내에서 단어 간 관계를 학습하는 것이다. 이것이 트랜스포머의 핵심 구성 요소가 된다.

4부: "Attention Is All You Need" — 트랜스포머의 탄생

트랜스포머 아키텍처 앞에 선 8명의 연구자들 — Query, Key, Value를 상징하는 아이템을 들고 있다

8명의 저자, 하나의 혁명 (2017년 6월)

2017년 6월 12일, 8명의 구글 연구자가 역사상 가장 영향력 있는 AI 논문 중 하나를 arXiv에 올렸다.

"Attention Is All You Need" (NeurIPS 2017)

저자: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

소속: Google Brain + Google Research + 토론토 대학교
인용 수: ~150,000회 이상 (2025년 기준, 컴퓨터 과학 역사상 최다 인용 논문 중 하나)

논문 각주: "동등한 기여. 저자 순서는 무작위."

제목은 비틀즈의 "All You Need Is Love"를 패러디한 것이다. 기술적 주장은 대담했다: 순환도 필요 없고, 컨볼루션도 필요 없다. 어텐션만 있으면 된다.

누가 무엇을 했나

논문의 각주에 각 저자의 기여가 상세히 적혀 있다 — 이례적인 투명성이다:

트랜스포머 8인의 기여

야콥 우스코라이트 Google Research RNN을 셀프 어텐션으로 대체하자고 최초 제안

노암 샤지어 Google Brain 스케일드 내적 어텐션, 멀티 헤드, 위치 인코딩 발명

아시시 바스와니 Google Brain 최초 트랜스포머 설계 및 구현

니키 파르마르 Google Research 무수한 모델 변형 설계·구현·튜닝

에이단 고메즈 토론토 대학교 인턴 tensor2tensor 구현, 결과 대폭 개선

루카시 카이저 Google Brain tensor2tensor 공동 개발

리온 존스 Google Research 초기 코드베이스, 효율적 추론, 시각화

일리아 폴로수킨 독립 최초 트랜스포머 공동 구현

에이단 고메즈는 당시 20세의 학부 인턴이었다. 그는 이후 AI 기업 Cohere를 공동 설립해 수십억 달러 가치의 회사로 키웠다 — 아마 테크 역사상 가장 성공적인 인턴일 것이다.

5부: Q, K, V — 도서관에서 이해하는 어텐션

트랜스포머의 핵심은 Query(질의), Key(키), Value(값) 세 요소의 상호작용이다. 가장 직관적인 비유는 도서관 검색이다.

도서관 비유

Query (Q) = 검색어

→

Key (K) = 책의 색인/제목

→

Value (V) = 책의 실제 내용

도서관에 들어가 "이탈리아 요리법" 을 찾고 싶다 → 이것이 Query
각 책에는 제목/키워드가 있다: "마리오의 파스타", "프랑스 와인 가이드", "로마 여행기" → 이것이 Key
검색어와 각 제목을 비교해 관련성 점수를 매긴다 (내적)
점수를 확률로 변환한다 (softmax) → "마리오의 파스타" 70%, "로마 여행기" 25%, "프랑스 와인" 5%
각 책의 실제 내용(Value) 을 이 확률로 가중 합산 → 최종 결과

일반 데이터베이스는 정확히 일치하는 키만 반환하지만(하드 검색), 어텐션은 모든 키와의 유사도를 확률로 변환하는 소프트 검색이다.

수식으로 보면

Attention(Q, K, V) = softmax(QK^T / √d_k) × V

QK^T: 모든 Query-Key 쌍의 유사도 (내적)
√d_k: 차원이 커질 때 내적 값이 너무 커지는 것을 방지하는 스케일링
softmax: 유사도를 확률 분포로 변환
× V: 확률에 따라 Value를 가중 합산

멀티 헤드 어텐션: 여러 독자가 같은 책을 읽다

한국어 NLP 교재(ratsgo)의 비유가 적절하다: 멀티 헤드 어텐션은 "같은 문서를 두고 독자 여러 명이 함께 읽는 구조" 다.

예: "Mary gave roses to Susan"

헤드 1: "gave"가 누가 주는지에 집중 → "Mary"
헤드 2: 무엇을 주는지에 집중 → "roses"
헤드 3: 누구에게 주는지에 집중 → "Susan"

트랜스포머는 8개의 어텐션 헤드가 병렬로 작동한다 (d_model=512, 헤드당 d_k=64). 각 헤드가 서로 다른 관계 유형을 학습한다.

"it"은 누구를 가리키는가?

"The animal didn't cross the street because it was too tired."

인간은 "it"이 "animal"을 가리킨다는 것을 즉시 안다. 셀프 어텐션도 마찬가지다 — "it"의 Query가 "animal"의 Key와 높은 유사도를 갖고, 그 정보가 "it"의 표현에 통합된다.

반면 "The animal didn't cross the street because it was too wide"에서는 "it"이 "street"를 가리킨다 — 어텐션 가중치가 완전히 다른 패턴을 보인다. 문맥에 따라 동적으로 변하는 것이 어텐션의 핵심이다.

6부: 트랜스포머가 세상을 바꾸다

순환의 폐지

트랜스포머의 가장 혁명적인 결정: 순환(recurrence)을 완전히 제거한 것이다. RNN은 토큰을 하나씩 순차적으로 처리해야 했지만, 트랜스포머는 모든 토큰을 동시에 병렬 처리한다.

속성	RNN	트랜스포머
처리 방식	순차적 (O(n) 단계)	병렬 (O(1) 단계)
장거리 의존성	O(n) 연산 필요	O(1) 연산 (직접 연결)
학습 속도	느림 (병렬화 어려움)	빠름 (GPU 활용 극대화)
복잡도	O(n·d²)	O(n²·d)

대신 위치 정보가 사라지므로, 위치 인코딩(positional encoding) 을 사인/코사인 함수로 주입한다.

결과: 새로운 최고 성능

과제	BLEU
WMT 2014 영-독 (기존 최고)	~26
트랜스포머 (big)	28.4 (+2 이상)
WMT 2014 영-불 (기존 최고)	~41
트랜스포머 (big)	41.8 (단일 모델 최고)

이것을 8대의 P100 GPU로 3.5일 만에 달성했다.

이후의 혁명들

트랜스포머 혁명 타임라인

2014.09

바단아우 어텐션 — 정보 병목 해결

2017.06

트랜스포머 — "Attention Is All You Need"

2018.10

BERT (Google) — 인코더 전용, 양방향 사전학습

2018.06

GPT-1 (OpenAI) — 디코더 전용, 자기회귀 사전학습

2020.05

GPT-3 — 1,750억 파라미터, 퓨샷 학습

2020.10

ViT — "이미지는 16×16 단어" (비전에 트랜스포머)

2020.11

AlphaFold 2 — 단백질 구조 예측 (GDT 92.4/100)

2022.11

ChatGPT — 대중에게 AI 혁명을 알리다

2023~26

GPT-4, Claude, Gemini, Llama, Stable Diffusion...

현재 ArXiv AI 논문의 약 70% 가 트랜스포머를 언급한다. 텍스트, 이미지, 비디오, 오디오, 단백질, 로보틱스 — 사실상 모든 AI 영역이 트랜스포머 기반이다.

7부: 8명의 저자는 어디로 갔나

8명의 공저자는 모두 구글을 떠났다. 그들이 만든 것들:

저자	현재	비고
아시시 바스와니	Essential AI (CEO)	2022년 공동 설립
노암 샤지어	Google DeepMind (VP)	Character.AI 설립 후 2024년 $27억 딜로 구글 복귀, Gemini 공동 리드
니키 파르마르	Anthropic	Essential AI 거쳐 2025년 합류
야콥 우스코라이트	Inceptive (CEO)	RNA 약물 설계 AI, 2024년 $1억 투자 유치
리온 존스	Sakana AI (CTO)	도쿄 기반 AI 연구소
에이단 고메즈	Cohere (CEO)	당시 20세 인턴, 현재 수십억 달러 기업
루카시 카이저	OpenAI	o1/o3 추론 모델, GPT-4/5 기여
일리아 폴로수킨	NEAR Protocol	블록체인/AI

2024년 3월 NVIDIA GTC에서, 8명 중 7명이 최초로 한 무대에 섰다. 젠슨 황은 이렇게 말했다:

"오늘 우리가 누리는 모든 것은 그 순간으로 거슬러 올라갈 수 있습니다."

노암 샤지어 사가

노암 샤지어의 이야기는 특별히 주목할 만하다. 그는 1994년 국제수학올림피아드 금메달리스트로, 구글에 2000년에 입사했다. 트랜스포머 논문에서 스케일드 내적 어텐션, 멀티 헤드 어텐션, 위치 인코딩을 발명 — 사실상 핵심 기술 대부분을 설계했다.

이후 그는 LaMDA(구글의 대화형 AI)를 개발했지만, 구글이 제품 출시를 미루는 것에 좌절해 2022년 퇴사하고 Character.AI를 설립했다. 2024년 8월, 구글은 약 27억 달러 규모의 라이선싱 딜로 그를 다시 데려왔다 — 아마 기술 역사상 가장 비싼 개인 영입일 것이다.

8부: 현재와 미래 — 어텐션의 최전선

O(n²)의 한계를 넘어서

셀프 어텐션의 계산 복잡도는 O(n²) — 시퀀스 길이의 제곱에 비례한다. 100만 토큰을 처리하려면 1조 번의 연산이 필요하다.

어텐션 효율화 기술

FlashAttention Dao et al., 2022 IO 인식 타일링으로 정확한 어텐션을 2~4배 빠르게

선형 어텐션 Katharopoulos, 2020 softmax를 커널로 대체, O(n) 복잡도

Mamba (SSM) Gu & Dao, 2023 선택적 상태 공간 모델, 선형 시간 복잡도

MoE Switch/Mixtral 전문가 혼합 — 토큰당 일부 파라미터만 활성화

특히 Mamba-2 (2024) 는 상태 공간 이중성(SSD)을 증명해, SSM과 어텐션이 같은 수학적 가족에 속함을 보였다 — 어텐션과의 경쟁이 아니라 통합이 일어나고 있다.

컨텍스트 윈도우의 확장

YaRN (2023): 위치 인코딩 스케일링으로 컨텍스트 확장
LongRoPE (2024, Microsoft): 컨텍스트를 200만 토큰까지 확장. Microsoft Phi-3에 통합
LongRoPE2 (2025): "거의 무손실" 컨텍스트 스케일링

멀티모달 어텐션

크로스 어텐션(cross-attention) 이 서로 다른 모달리티를 결합하는 핵심 기술이 되었다. Stable Diffusion에서 텍스트 프롬프트가 이미지 생성을 안내하는 것도, CLIP 텍스트 인코딩이 UNet의 어텐션 층을 통해 노이즈 제거 과정에 주입되는 크로스 어텐션이다.

맺으며: 집중의 힘

2014년, 벨라루스 출신의 박사과정생이 "신경망이 입력의 모든 부분을 동시에 볼 수 있게 하자"라는 아이디어를 논문으로 썼다. 3년 뒤, 구글의 8명이 "그것만으로 충분하다"고 선언했다.

그 이후 일어난 일은 AI 역사상 가장 빠른 혁명이었다. 8년 만에 어텐션 기반 모델은 텍스트를 쓰고, 이미지를 그리고, 코드를 짜고, 단백질 구조를 예측하고, 영상을 생성하게 되었다.

어텐션 메커니즘이 가르쳐 주는 것은 결국 이것이다:

모든 것을 기억하려 하지 말고, 지금 중요한 것에 집중하라.

인간이 수백만 년에 걸쳐 진화시킨 이 단순한 원리가, 인공지능의 가장 강력한 도구가 되었다.

기술2026.03.24