coredot.today
Byte Latent Transformer: 토큰을 버리고 바이트로 돌아간 AI의 반란
블로그로 돌아가기
BLT토크나이저바이트 레벨패치엔트로피LlamaMeta AI스케일링 법칙

Byte Latent Transformer: 토큰을 버리고 바이트로 돌아간 AI의 반란

GPT부터 Llama까지, 모든 LLM은 '토크나이저'라는 전처리 단계에 의존한다. Meta AI의 BLT는 이 관행을 뒤집었다 — 바이트를 직접 처리하되, 엔트로피 기반으로 '어려운 곳에 더 많은 연산'을 동적 할당하여 80억 스케일에서 Llama 3에 필적하는 성능을 달성했다.

코어닷투데이2026-03-2531

들어가며: 모든 LLM의 더러운 비밀

GPT-4, Claude, Llama, Gemini — 2026년 현재 가장 강력한 AI 모델들은 한 가지 공통된 비밀을 품고 있다. 수조 달러의 연구비가 투입된 이 첨단 시스템들의 맨 첫 단계에는, 놀랍게도 30년 된 압축 알고리즘이 자리 잡고 있다.

토크나이저(Tokenizer).

우리가 "Hello, world!"를 ChatGPT에 입력하면, 모델이 보는 것은 이 문장이 아니다. 토크나이저가 먼저 이 문장을 [15496, 11, 995, 0] 같은 숫자 조각(토큰)으로 쪼갠다. 모델은 원래 텍스트를 한 번도 보지 못한다. "Hello"의 H, e, l, l, o가 뭔지 모른다. 그냥 15496이라는 번호가 붙은 조각을 볼 뿐이다.

이것이 왜 문제인가? 몇 가지 기묘한 현상을 보자:

"strawberry에 r이 몇 개야?"

GPT-4에게 이 질문을 하면, 놀랍게도 "2개"라고 대답할 수 있다. 정답은 3개다. 왜? "strawberry"가 토크나이저에 의해 [str, aw, berry]로 쪼개지기 때문이다. 모델은 글자 단위가 아니라 토큰 단위로 세계를 인식하므로, 개별 문자가 몇 개 있는지 구조적으로 알 수 없다.

"안녕하세요"와 "Hello"의 비용 차이

Llama 3의 토크나이저에서 "Hello"는 1개 토큰이다. "안녕하세요"는? 3개 토큰. 같은 의미인데 한국어가 3배 비싸다. 아랍어, 힌디어, 태국어는 더 심하다. 토크나이저가 영어 중심으로 설계되었기 때문이다. 이것은 단순한 비용 문제가 아니라 성능 격차로 이어진다.

"2+3=?" vs "2 + 3 = ?"

동일한 수학 문제인데, 공백의 유무에 따라 토큰화 결과가 달라지고, 모델의 성능이 바뀔 수 있다. 토크나이저는 내용이 아니라 형식에 민감하다.

2024년 12월, Meta AI(FAIR)의 Artidoro Pagnoni 등 14명이 이 문제에 근본적인 답을 내놓았다. 논문 제목: "Byte Latent Transformer: Patches Scale Better Than Tokens."

핵심 주장은 도발적이다 — "토큰을 버리고, 바이트로 돌아가라. 단, 똑똑하게."


제1장: 토크나이저의 역사 — 필요악이 된 30년 된 해킹

BPE: 1994년 압축 알고리즘의 부활

현대 LLM의 토크나이저는 대부분 BPE(Byte Pair Encoding)에 기반한다. BPE는 원래 1994년 Philip Gage가 데이터 압축을 위해 고안한 알고리즘이다. AI와는 아무 관계도 없었다.

작동 원리는 단순하다:

  1. 텍스트를 개별 문자(바이트)로 시작한다
  2. 가장 자주 함께 나타나는 바이트 쌍을 찾아 하나로 합친다
  3. 원하는 어휘 크기에 도달할 때까지 반복한다

예를 들어 "low lower lowest"를 처리하면:

  • l+olo (자주 등장하니 합침)
  • lo+wlow (또 합침)
  • e+s+test (자주 등장하니 합침)

2016년, Sennrich 등이 이 압축 알고리즘을 기계번역의 서브워드 분절에 적용하면서 NLP의 표준이 되었다. GPT-2(2019)가 BPE를 채택한 이후, GPT-3, GPT-4, Llama, Mistral — 거의 모든 LLM이 BPE 또는 그 변형을 사용한다.

왜 바이트를 직접 쓰지 않았나?

이론적으로 가장 깨끗한 접근은 바이트(byte) 수준에서 직접 학습하는 것이다. UTF-8 인코딩에서 모든 텍스트는 256가지 바이트의 나열이다. 어휘 크기가 256으로 고정되어, 토크나이저가 필요 없다. 어떤 언어, 어떤 스크립트, 심지어 이모지와 코드까지 동일하게 처리할 수 있다.

문제는 비용이다. "Hello, world!"는 토큰으로 4개지만, 바이트로는 13개다. 평균적으로 시퀀스 길이가 3~4배 늘어난다. 트랜스포머의 셀프 어텐션은 시퀀스 길이의 제곱에 비례하는 연산이 필요하므로, 바이트 수준 학습은 9~16배 더 비싸다.

이전 연구들(ByT5, MambaByte, MegaByte)은 더 효율적인 어텐션 구조로 이 문제를 완화하려 했지만, 대부분 소형 모델에서만 성과를 보였다. 대형 모델에서는 어텐션이 아니라 FFN(피드포워드 네트워크) 레이어가 비용을 지배하기 때문이다 — FFN은 모든 바이트에 동일하게 적용되므로, 시퀀스가 길어지면 직접적으로 비용이 증가한다.

토크나이저의 근본적 문제

BPE는 일종의 데이터 손실 없는 압축이다. 문제는 이 압축 기준이 "빈도"이지 "의미"나 "예측 난이도"가 아니라는 점이다.

"the"는 영어에서 가장 흔한 단어이므로 1개 토큰이다. "photosynthesis"도 1개 토큰일 수 있다. 하지만 모델 입장에서 "the"를 예측하는 것과 "photosynthesis"를 예측하는 것의 난이도는 천지 차이**다. 그런데 토큰 기반 LLM은 두 경우 모두 **정확히 같은 연산량(1회의 트랜스포머 포워드 패스)을 할당한다.

이것은 마치 시험에서 "1+1="과 "미분방정식을 푸시오"에 같은 시간을 배정하는 것과 같다. 비효율의 극치다.


제2장: BLT의 핵심 아이디어 — "어려운 곳에 더 많이 생각하라"

패치(Patch): 토큰의 대안

BLT의 첫 번째 혁신은 패치(patch)라는 새로운 단위를 도입한 것이다. 패치는 토큰과 비슷하게 바이트를 묶어주지만, 결정적 차이가 있다:

  • 토큰: 학습 전에 고정된 어휘로 결정. 모든 토큰에 동일 연산 할당.
  • 패치: 입력 데이터의 복잡도에 따라 동적으로 크기가 변함. 복잡한 구간은 작은 패치(= 더 많은 연산), 쉬운 구간은 큰 패치(= 적은 연산).

엔트로피 기반 패칭: "다음 바이트를 예측하기 얼마나 어려운가?"

패치 경계를 어디에 둘 것인가? BLT는 엔트로피(entropy)를 기준으로 삼는다. 작은 바이트 수준 언어 모델(1억 파라미터)을 먼저 학습하고, 이 모델이 각 바이트의 "다음 바이트 엔트로피"를 계산한다.

엔트로피가 높다 = 다음 바이트가 불확실하다 = 여기서 새 패치를 시작한다.

구체적 예시로 보자:

"Daenerys Targaryen is in Game of Thrones, a fantasy epic by George R.R. Martin."

이 문장에서 각 바이트의 엔트로피를 계산하면:

  • "Thr" 다음에 "o"가 올 확률은 매우 높다 (엔트로피 낮음) → 같은 패치 유지
  • "by " 다음에 첫 글자가 올 때는 불확실하다 (엔트로피 높음) → 새 패치 시작
  • "G"가 시작된 후 "eorge"는 상당히 예측 가능 (엔트로피 낮음) → 같은 패치

결과적으로, 예측하기 쉬운 구간(단어 중간, 흔한 패턴)은 큰 패치로 묶여 적은 연산을 받고, 예측하기 어려운 구간(새 단어의 시작, 코드의 핵심 부분)은 작은 패치로 쪼개져 더 많은 연산을 받는다.

이것은 인간의 읽기 패턴과 놀랍도록 유사하다. 안구 추적 연구에 따르면, 인간은 예측 가능한 단어를 빠르게 건너뛰고 예상치 못한 단어에서 시선이 머문다. BLT는 본질적으로 이 전략을 구현한 것이다.

원본 바이트 엔트로피 계산 동적 패치 분할 글로벌 트랜스포머

두 가지 패칭 전략

논문은 엔트로피 기반 패칭의 두 가지 구현을 제안한다:

글로벌 제약 방식: 엔트로피가 특정 임계값 θg\theta_g를 넘으면 새 패치를 시작한다. 단순하고 직관적.

근사 단조 제약 방식: 엔트로피가 직전 바이트 대비 θr\theta_r 이상 급증하면 새 패치를 시작한다. 엔트로피가 단조감소하다가 갑자기 뛰는 지점 — 즉, 예측 난이도가 급격히 바뀌는 전환점을 포착한다.


제3장: 아키텍처 — 세 개의 기둥

BLT는 세 개의 모듈로 구성된다.

BLT 아키텍처 — 세 모듈
로컬 인코더 (Local Encoder) 바이트 → 패치 표현. 경량 트랜스포머 (1 레이어)
글로벌 트랜스포머 (Latent) 패치 → 패치. 대형 트랜스포머 (32 레이어). 연산의 대부분
로컬 디코더 (Local Decoder) 패치 표현 → 바이트 출력. 경량 트랜스포머 (6 레이어)

로컬 인코더: 바이트를 패치로 압축

경량 트랜스포머가 원본 바이트 시퀀스를 읽고, 패치 경계에 따라 바이트들을 하나의 패치 표현으로 요약한다. 핵심 기술 두 가지:

해시 n-그램 임베딩. 각 바이트 위치에서 3~8글자 길이의 n-그램을 추출하고, 해시 함수로 임베딩 테이블에 매핑한다. "straw"라는 5-그램, "rawbe"라는 5-그램 등이 바이트의 문맥 정보를 풍부하게 인코딩한다. 이것은 토큰 기반 모델의 대규모 임베딩 테이블(Llama 3: 12.8만 어휘 × 4096차원)을 해시 기반 고정 크기 테이블로 대체하는 방법이다.

크로스 어텐션. Perceiver 아키텍처에서 영감을 받아, 패치 표현이 해당 패치에 속한 바이트들에 대해 크로스 어텐션을 수행한다. 바이트의 정보를 패치로 "흡수"하는 과정이다.

글로벌 트랜스포머: 무거운 사고

연산의 대부분이 여기서 일어난다. 일반적인 자기회귀 트랜스포머와 동일하지만, 입력이 토큰이 아니라 패치다. 패치가 클수록 시퀀스가 짧아지므로, 여기서 대규모 연산 절감이 발생한다.

평균 패치 크기 4.5바이트인 BLT에서 글로벌 트랜스포머는 Llama 3와 비슷한 시퀀스 길이를 처리한다. 평균 패치 크기 8바이트이면? 시퀀스 길이가 절반으로 줄어들어 추론 FLOP이 약 50% 감소한다.

로컬 디코더: 패치에서 바이트로 복원

글로벌 트랜스포머의 출력(패치 표현)을 받아 원래 바이트 시퀀스로 복원한다. 크로스 어텐션으로 패치 정보를 각 바이트 위치에 분배하고, 바이트 단위의 다음 바이트 예측을 수행한다. 어휘 크기가 256(바이트)이므로 출력 레이어가 극도로 작다 — Llama 3의 12.8만 어휘 대비 500분의 1.

비용 분석: 왜 이 구조가 효율적인가

BLT의 핵심 효율성은 비대칭적 크기 배분에서 나온다:

모듈80억 BLT의 파라미터역할
로컬 인코더2,000만 (0.3%)모든 바이트에 적용
글로벌 트랜스포머64억 (97%)패치에만 적용
로컬 디코더1.2억 (1.8%)모든 바이트에 적용

무거운 연산(64억 파라미터)은 패치 단위로만 실행된다. 바이트 단위로 실행되는 인코더/디코더는 극도로 가볍다. 패치가 평균 6바이트라면, 무거운 연산은 6바이트당 1번만 수행된다.


제4장: 실험 결과 — 바이트 모델이 처음으로 토큰 모델에 필적하다

스케일링 법칙: 80억까지 Llama 3에 필적

BLT는 바이트 수준 트랜스포머로는 최초로 토큰 기반 모델과 동등한 스케일링 추세를 달성했다.

10억 → 20억 → 40억 → 80억 파라미터에 걸쳐, FLOP 대비 성능(bits-per-byte)에서 BLT가 Llama 3 BPE 모델을 매칭하거나 초과하는 결과를 보인다. 이전의 MegaByte나 SpaceByte는 소형 모델에서만 경쟁력이 있었고, 대형 모델에서는 BPE에 한참 뒤처졌다.

80억 벤치마크 (BLT-1T 데이터, 1조 토큰)

8B 모델 벤치마크 — Llama 3 vs BLT-Entropy
HellaSwag
Llama 79.1 / BLT 80.6
ARC-Easy
Llama 77.6 / BLT 79.6
HumanEval
Llama 31.1 / BLT 35.4
MBPP
Llama 40.2 / BLT 41.8
MMLU
Llama 58.1 / BLT 57.4
평균
Llama 60.0 / BLT 61.1

7개 벤치마크 중 5개에서 BLT가 Llama 3를 능가. 특히 코딩(HumanEval +4.3%p, MBPP +1.6%p)에서 개선이 두드러진다. MMLU는 Llama 3가 약간 우세. 평균 61.1 vs 60.0으로 BLT가 종합 우위.


제5장: 논문 제목의 의미 — "패치가 토큰보다 잘 스케일한다"

이것이 이 논문의 가장 중요한 기여이자, 제목의 의미다.

토큰 기반 모델의 스케일링 한계

Llama 같은 토큰 기반 모델을 스케일업하는 유일한 방법은 파라미터를 늘리는 것이다. 파라미터가 늘면 추론 비용도 비례해서 증가한다. 추론 FLOP 예산이 고정되어 있으면, 모델 크기도 고정된다.

BLT의 새로운 스케일링 축

BLT는 두 가지를 동시에 스케일할 수 있다:

  1. 모델 크기 (글로벌 트랜스포머의 파라미터)
  2. 패치 크기 (평균 바이트 수)

핵심은 이렇다: 패치 크기를 키우면 시퀀스가 짧아져 연산이 줄어든다. 그 절약분으로 글로벌 트랜스포머를 더 크게 만들 수 있다. 추론 FLOP은 동일하게 유지하면서.

논문의 실험 결과:

모델비임베딩 파라미터추론 FLOP
Llama 34.5억3.1×10⁸
BLT (패치 6)6.1억 (1.3배)3.1×10⁸
BLT (패치 8)7.6억 (1.7배)3.1×10⁸
Llama 339억2.1×10⁹
BLT (패치 6)52억 (1.3배)2.1×10⁹
BLT (패치 8)66억 (1.7배)2.1×10⁹

같은 추론 비용으로 1.3~1.7배 큰 모델을 운영할 수 있다. 그리고 모델이 커질수록 성능이 좋아지므로, 동일 예산에서 BLT가 더 높은 성능을 달성한다.

더 놀라운 것은 추세다. 학습 데이터가 충분하면, 패치 크기 8의 BLT가 토큰 기반 모델보다 더 가파른 스케일링 곡선을 보인다. 데이터가 많아질수록 격차가 벌어진다.

토큰 기반 모델은 "크기만 키울 수 있다." BLT는 "크기도 키우고, 효율도 키울 수 있다." 이것이 "패치가 토큰보다 잘 스케일한다"의 의미다.


제6장: 진짜 차이 — 노이즈에 강하고 글자를 안다

노이즈 견딩성 (HellaSwag 변형)

텍스트에 5가지 유형의 노이즈를 적용하고 성능 변화를 측정했다:

HellaSwag — 노이즈 적용 시 성능 (8B 모델)
원본
Llama 79.1 / BLT 80.6
대문자 변환
Llama 72.9 / BLT 77.3
문자 반복
Llama 57.0 / BLT 66.6
대소문자 랜덤
Llama 55.3 / BLT 65.7
문자 삭제
Llama 53.8 / BLT 58.2
노이즈 평균
Llama 56.9 / BLT 64.3

BLT는 노이즈 평균에서 Llama 3(같은 데이터)보다 7.4%p 높다. 심지어 16배 많은 데이터로 학습한 Llama 3.1과 동등하다. 토크나이저가 없으니, 입력의 형식적 변화에 구조적으로 강건하다.

CUTE 벤치마크: 글자 수준 이해

CUTE(Character-level Understanding and Text Evaluation)는 글자 수준 조작 능력을 측정하는 벤치마크다. 여기서 BLT는 압도적이다:

태스크Llama 3 (1T)Llama 3.1 (16T)BLT (1T)
맞춤법1.1%-99.9%
역맞춤법30.1%3.6%99.9%
문자 포함 여부0.0%0.0%55.9%
문자 교체0.4%1.2%48.7%
의미 추론65.0%0.0%90.5%
CUTE 평균27.520.054.1

맞춤법 과제에서 99.9% — BLT는 단어를 한 글자씩 정확히 분해할 수 있다. Llama 3는 1.1%. 이것은 토크나이저의 구조적 한계가 만드는 차이다. 토큰 기반 모델은 "strawberry"를 [str][aw][berry]로 인식하므로, 개별 문자 r이 몇 개인지 구조적으로 알 수 없다. BLT는 바이트 단위로 처리하므로 s, t, r, a, w, b, e, r, r, y를 정확히 인식한다.

16배 많은 데이터로 학습한 Llama 3.1이 오히려 CUTE 성능이 떨어진 점(27.5 → 20.0)은, 이 한계가 데이터 양으로 해결할 수 없는 구조적 문제임을 보여준다.

저자원 언어 번역

FLORES-101 벤치마크에서 27개 언어 쌍을 테스트했다:

방향Llama 3BLT
타언어 → 영어 (평균)12.114.0
영어 → 타언어 (평균)5.96.4

특히 저자원 언어에서 차이가 극적이다:

  • 아르메니아어 → 영어: 1.7 → 6.3 (3.7배)
  • 벵골어 → 영어: 4.7 → 12.7 (2.7배)
  • 조지아어 → 영어: 1.7 → 7.4 (4.4배)
  • 크메르어 → 영어: 4.4 → 9.5 (2.2배)

토크나이저는 영어 중심의 어휘를 사용하므로, 비라틴 문자 스크립트를 비효율적으로 처리한다. BLT는 모든 스크립트를 동일한 바이트 수준에서 처리하므로, 이 다국어 불평등이 구조적으로 해소된다.


제7장: 역사적 맥락 — 바이트 수준 모델의 기나긴 여정

BLT가 하루아침에 나온 것은 아니다. 오랜 연구의 계보가 있다.

2011-2013: 문자 수준 RNN. Sutskever, Mikolov, Graves 등이 문자 단위 순환 신경망을 연구. 토크나이저 없이 학습 가능함을 보였지만, 성능과 효율 모두 단어 수준 모델에 뒤처짐.

2016: ByteNet. Kalchbrenner 등이 바이트 수준의 기계번역 모델 제안. 합성곱(CNN) 기반으로 긴 시퀀스를 효율적으로 처리.

2019: GPT-2의 BPE 표준화. OpenAI가 GPT-2에 BPE를 도입하면서, BPE가 LLM의 사실상 표준이 됨.

2022: ByT5. Google의 Xue 등이 바이트 수준 T5 모델 제안. 작은 모델에서 토큰 모델보다 강건함을 보였지만, 대형 모델에서는 효율 문제로 경쟁력 없음.

2023: MegaByte. Meta AI의 Yu 등이 고정 크기 패치(stride)를 사용한 바이트 수준 트랜스포머 제안. 효율 개선은 있었으나 대형 모델에서 BPE에 한참 뒤처짐.

2024: SpaceByte. 공백 기준 패칭. 단어 경계에 맞춰 패치를 나누어 MegaByte보다 개선, 하지만 모든 언어/도메인에 적용 불가.

2024.12: BLT. 엔트로피 기반 동적 패칭으로, 최초로 80억 스케일에서 BPE 모델에 필적.

2011 Char RNN 2022 ByT5 2023 MegaByte 2024 BLT

제8장: 2026년 — 이 논문이 말해주는 미래

토크나이저 종말의 서막

BLT가 2024년 12월에 발표된 이후, 바이트 수준 모델에 대한 관심이 폭발적으로 늘었다. 토크나이저의 문제점 — 다국어 불평등, 노이즈 취약성, 글자 수준 이해 부재 — 이 더 이상 "감수할 수 있는 비용"이 아니라 "해결해야 할 결함"으로 인식되기 시작한 것이다.

멀티모달 AI와의 자연스러운 결합

토크나이저가 없는 모델의 또 다른 장점은 모달리티 확장이 자유롭다는 것이다. 텍스트, 이미지, 오디오, 코드 — 모든 것은 결국 바이트다. 토크나이저가 있으면 새로운 모달리티를 추가할 때마다 어휘를 확장해야 하지만, 바이트 수준 모델은 그냥 바이트를 더 넣으면 된다.

2026년 현재, GPT-4o, Gemini, Claude 같은 멀티모달 모델들은 각 모달리티에 별도의 토크나이저/인코더를 사용한다. BLT 방식이 확장되면, 통합된 바이트 수준 멀티모달 모델이 가능해진다.

에지 AI와 효율성

BLT의 동적 연산 할당은 에지 디바이스에서 특히 매력적이다. 쉬운 구간에서 연산을 절약하는 것은 제한된 배터리와 프로세서를 가진 모바일 디바이스에서 실질적인 전력 절감으로 이어진다.

패치 크기 8의 BLT는 동일 성능 대비 추론 FLOP 50% 절감을 달성하며, 이는 에지 배포 시 동일한 하드웨어에서 2배의 처리량 또는 절반의 전력 소비를 의미한다.

한계와 남은 과제

논문은 몇 가지 한계를 인정한다:

  1. 엔트로피 모델이 별도. 현재 패칭을 위한 작은 모델을 따로 학습해야 한다. 종단 간(end-to-end) 학습은 미래 과제.
  2. 구현 최적화. 기존 라이브러리가 토큰 기반 모델에 최적화되어 있어, 벽시계 시간(wall-clock time)에서 아직 불리할 수 있다.
  3. 스케일링 법칙. BLT에 맞는 최적 스케일링 법칙 연구가 더 필요하다 — 현재 Chinchilla 법칙을 빌려 쓰고 있다.

마치며: 30년 된 해킹을 넘어서

BPE 토크나이저는 1994년에 데이터 압축을 위해 만들어졌다. 2016년에 NLP에 차용되었고, 2019년 GPT-2 이후 모든 LLM의 표준이 되었다. 하지만 그것은 항상 해킹(hack)이었다 — 이론적으로 최선이어서가 아니라, 바이트 수준 처리가 너무 비쌌기 때문에 선택된 차선책.

BLT는 그 비용 문제를 우아하게 해결했다. "모든 바이트에 동일한 연산을 할당한다"는 무식한 접근 대신, "어려운 곳에 더 많이 생각하라"는 지능적 접근으로. 결과는 최초로 80억 스케일에서 BPE에 필적하는 바이트 모델이고, 같은 추론 비용에서 더 큰 모델을 운영할 수 있는 새로운 스케일링 차원이다.

"strawberry에 r이 몇 개야?"라는 질문에 정확히 답하는 것은 사소해 보일 수 있다. 하지만 그 사소한 질문에 답할 수 없다는 것은, 현재 LLM이 텍스트를 있는 그대로 보지 못한다는 근본적 문제의 증상이다. BLT는 AI에게 안경을 씌워주는 것이 아니라, 맨눈으로 세상을 볼 수 있게 해준 것이다.


참고 문헌

  • Pagnoni, A., Pasunuru, R., Rodriguez, P., et al. (2024). Byte Latent Transformer: Patches Scale Better Than Tokens. arXiv:2412.09871.
  • Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. ACL 2016.
  • Yu, L., et al. (2023). MegaByte: Predicting Million-byte Sequences with Multiscale Transformers. NeurIPS 2023.
  • Slagle, D. (2024). SpaceByte: Towards Deleting Tokenization from Large Language Modeling. arXiv.
  • Xue, L., et al. (2022). ByT5: Towards a Token-Free Future with Pre-trained Byte-to-Byte Models. TACL.
  • Nawrot, P., et al. (2023). Dynamic Token Pooling for Efficient Transformers. arXiv.
  • Jaegle, A., et al. (2021). Perceiver: General Perception with Iterative Attention. ICML 2021.