coredot.today
Qwen2.5-VL 해부: 문서도, 영상도, 스마트폰도 '보는' AI의 구조
블로그로 돌아가기
멀티모달Qwen2.5-VL비전 언어 모델동적 해상도M-RoPEOCR비디오 이해

Qwen2.5-VL 해부: 문서도, 영상도, 스마트폰도 '보는' AI의 구조

GPT-4o와 동급의 시각 이해, OCR에서는 압도적 1위, 그리고 몇 시간짜리 영상까지 이해한다. 알리바바의 Qwen2.5-VL이 3B부터 72B까지 세 가지 크기로 내놓은 '보는 AI'의 설계도를 완전 해부한다.

코어닷투데이2026-03-2533

들어가며: AI에게 "눈"을 달아주는 문제

인간은 텍스트를 읽으면서 동시에 그래프를 해석하고, 영상을 보면서 자막을 읽고, 스마트폰 화면을 보고 어떤 버튼을 눌러야 할지 판단한다. 이 모든 것은 시각과 언어를 동시에 처리하는 능력 덕분이다.

AI에게 이 능력을 주는 것이 비전-언어 모델(Vision-Language Model, VLM) 의 목표다. 하지만 여기에는 근본적인 어려움이 있다:

  • 이미지는 크기도 비율도 제각각이다 — 정사각형 인스타그램 사진, 세로로 긴 스마트폰 스크린샷, 가로로 넓은 파노라마
  • 영상은 시간 축이 추가된다 — 30초 클립과 2시간 영화를 같은 방식으로 처리할 수 없다
  • 문서는 텍스트와 레이아웃이 얽혀 있다 — 표, 차트, 수식, 다단 레이아웃

2025년 2월, 알리바바의 Qwen 팀이 이 문제들을 정면으로 돌파한 모델을 발표했다.

논문 정보
"Qwen2.5-VL Technical Report"
저자: Shuai Bai 외 27명 (Alibaba Group Qwen Team)
arXiv: 2502.13923 (2025년 2월 19일)

모델 크기: 3B / 7B / 72B (3가지 변형)
핵심 결과: 72B 모델이 GPT-4o와 동급 성능, OCR에서는 모든 모델을 압도, 몇 시간짜리 영상 이해 가능
오픈소스: 모델 가중치 + 코드 전부 공개

1장: 멀티모달 AI의 역사 — 눈 먼 AI에서 보는 AI로

"눈 없는" 시대 (2017~2022)

GPT, BERT, T5 같은 초기 대형 언어 모델은 텍스트만 처리했다. 이미지를 이해하려면 별도의 비전 모델(ResNet, ViT)이 필요했고, 이 둘을 연결하는 것은 서툴렀다.

CLIP의 혁명 (2021)

OpenAI의 CLIP(Contrastive Language-Image Pre-training) 이 전환점이었다. 이미지와 텍스트를 같은 벡터 공간에 매핑하는 방법을 학습한 것이다. "강아지 사진"이라는 텍스트와 실제 강아지 사진이 벡터 공간에서 가까워지도록 학습했다.

GPT-4V와 멀티모달의 시대 (2023~2024)

2023년 GPT-4V(ision)가 등장하면서, 대형 언어 모델이 이미지를 직접 입력으로 받아 이해하는 시대가 열렸다. 이후 Google의 Gemini, Anthropic의 Claude 3가 뒤를 이었다.

오픈소스의 반격 (2024~2025)

상용 모델에 대한 오픈소스의 도전이 시작됐다. LLaVA, InternVL, 그리고 Qwen2-VL이 대표적이다. 특히 Qwen2-VL(2024년)은 동적 해상도 처리를 도입해 큰 주목을 받았다.

2021: CLIP
이미지-텍스트 정렬의 시작
2023: GPT-4V, LLaVA
LLM이 이미지를 직접 "본다"
2024: Qwen2-VL, Gemini 1.5
동적 해상도, 긴 영상 이해
2025: Qwen2.5-VL
네이티브 동적 해상도 ViT, 절대 시간 인코딩, 에이전트 능력

2장: Qwen2.5-VL의 구조 — 세 개의 블록

Qwen2.5-VL의 구조는 세 부분으로 나뉜다: 비전 인코더(ViT), 커넥터(MLP), 언어 모델(LLM).

입력
이미지 / 영상 / 문서
비전 인코더 (ViT)
675M 파라미터. 32 레이어. 윈도우 어텐션 + 글로벌 어텐션. 2D-RoPE
커넥터 (MLP)
2×2 패치 → 1 토큰으로 공간 압축
언어 모델 (Qwen2.5 LLM)
3B / 7B / 72B. M-RoPE로 텍스트+시각 위치 통합
출력
텍스트 답변, 바운딩 박스, 좌표, 구조화된 데이터

흥미로운 점: 비전 인코더는 세 모델(3B, 7B, 72B) 모두 동일하다. 675M 파라미터의 같은 ViT를 공유하고, 연결된 언어 모델의 크기만 다르다.


3장: 핵심 혁신 ① — 네이티브 동적 해상도 ViT

기존 방식의 문제: "잘라서 맞추기"

대부분의 비전 모델은 이미지를 고정 크기(예: 224×224)로 리사이즈한다. 세로로 긴 문서를 정사각형으로 찌그러뜨리면 글자가 뭉개진다. 또는 이미지를 타일로 잘라서 각각 처리하는데, 이러면 타일 경계에서 맥락이 끊긴다.

Qwen2.5-VL의 해법: "있는 그대로 보기"

Qwen2.5-VL의 ViT는 처음부터(from scratch) 동적 해상도를 지원하도록 학습되었다. CLIP 같은 사전학습 모델에서 시작하지 않는다.

작동 방식:

  1. 이미지의 높이와 너비를 28의 배수로 리사이즈
  2. 14×14 패치로 분할 (겹침 없이)
  3. 2×2 공간 병합으로 토큰 수 1/4로 압축

예시: 224×224 이미지 → 16×16 = 256 패치 → 2×2 병합 → 66 토큰 1120×840 이미지(고해상도 문서) → 80×60 = 4,800 패치 → 2×2 병합 → 1,200 토큰

토큰 수가 이미지 크기에 비례하므로, 작은 아이콘은 적은 토큰으로, 고해상도 문서는 많은 토큰으로 처리된다. 이미지당 4~16,384 토큰까지 유동적으로 조절 가능하다.

윈도우 어텐션: O(N²) 문제의 해결

동적 해상도의 부작용: 고해상도 이미지의 패치가 수천 개가 되면, 모든 패치 쌍의 어텐션을 계산하는 것은 O(N²)으로 비용이 폭발한다.

Qwen2.5-VL의 해법: 32개 레이어 중 28개는 윈도우 어텐션, 4개만 글로벌 어텐션.

윈도우 어텐션 설계
윈도우 크기: 8×8 패치 = 112×112 픽셀
윈도우 어텐션: 레이어 0~6, 8~14, 16~22, 24~30 (28개)
글로벌 어텐션: 레이어 7, 15, 23, 31 (4개)

원리: 대부분의 시각적 특성(에지, 텍스처, 작은 객체)은 로컬이다. 인접 패치끼리만 봐도 충분하다. 하지만 이미지의 전체 구조(레이아웃, 장면 이해)를 위해 4개 레이어에서 모든 패치를 한 번에 본다.

효과: 연산 비용이 패치 수에 선형적으로 증가. Qwen2-VL(전체 어텐션)보다 고해상도 이미지에서 훨씬 효율적.

비유: 신문을 읽을 때, 한 문단 내에서는 바로 옆 줄만 보면 된다(윈도우 어텐션). 하지만 가끔 전체 지면 레이아웃을 확인해야 한다(글로벌 어텐션) — "이 그래프가 어느 기사에 속하는지" 같은 판단을 위해.


4장: 핵심 혁신 ② — M-RoPE와 절대 시간 인코딩

문제: 텍스트, 이미지, 영상의 위치를 어떻게 통합하나?

언어 모델에서 위치 정보는 단순하다 — 토큰의 순서(1번째, 2번째, 3번째...) 만 알면 된다. 하지만 이미지는 2차원(행, 열), 영상은 3차원(시간, 행, 열) 이다.

Qwen2.5-VL은 M-RoPE(Multimodal Rotary Position Embedding) 로 이 문제를 해결한다.

M-RoPE — 3차원 위치 인코딩
RoPE의 회전 각도 차원을 세 그룹으로 분할:

시간(temporal): 16차원
높이(height): 24차원
너비(width): 24차원
— 합계: 64차원

텍스트 토큰: 세 그룹 모두 같은 위치 ID (= 1차원 순서)
이미지 토큰: 시간 ID 고정, 높이/너비 ID만 변화 (= 2차원 격자)
영상 토큰: 시간 ID가 프레임마다 증가, 높이/너비도 변화 (= 3차원 격자)

핵심 혁신은 시간 차원의 절대 타임스탬프 정렬이다.

기존 방식에서는 영상의 프레임에 1, 2, 3... 같은 상대적 인덱스를 부여했다. 하지만 이러면 문제가 생긴다:

30fps로 촬영한 10초 영상(300프레임)과 1fps로 샘플링한 같은 영상(10프레임)이 같은 사건인데 완전히 다른 위치 인코딩을 받는다. 모델이 "이 동작이 3초 걸렸다"는 것을 이해할 수 없다.

Qwen2.5-VL은 시간 ID를 실제 타임스탬프(초 단위)에 정렬한다. 프레임이 몇 개든, 1.5초 지점의 프레임은 1.5초의 시간 ID를 받는다.

비유: 영화에 자막 타이밍을 맞추는 것과 같다. "15번째 프레임"이 아니라 "0:03:42"처럼 절대 시각으로 지정해야, 어떤 재생 속도에서든 자막이 정확히 맞는다.

이 덕분에 Qwen2.5-VL은 몇 시간짜리 영상에서도 "2시간 13분에 무슨 일이 있었나?"라는 질문에 답할 수 있다.


5장: 핵심 혁신 ③ — 3가지 크기, 같은 눈

Qwen2.5-VL은 3B, 7B, 72B 세 가지 크기로 나온다. 독특한 설계 결정: 세 모델 모두 동일한 비전 인코더(675M)를 공유한다.

Qwen2.5-VL 모델 변형
Qwen2.5-VL-3B ~5.75 GB VRAM LLM 36레이어, 2048 히든. 스마트폰/엣지 배포용. 이전 세대 7B에 필적하는 성능
Qwen2.5-VL-7B ~13 GB VRAM LLM 28레이어, 3584 히든. 균형잡힌 성능/효율. 대부분의 상용 API 대체 가능
Qwen2.5-VL-72B ~133 GB VRAM LLM 80레이어, 8192 히든. GPT-4o 동급. OCR/문서에서 업계 최고

특히 주목할 만한 것은 3B 모델의 효율성이다:

벤치마크Qwen2-VL-7B (이전 세대)Qwen2.5-VL-3B (이번 세대)
DocVQA94.593.9
InfoVQA76.577.1
MathVista58.262.3
MathVision16.321.2

3B 모델이 이전 세대 7B를 여러 벤치마크에서 능가한다. 파라미터 수가 절반 이하인데도. 이것은 아키텍처 개선(윈도우 어텐션, 네이티브 동적 해상도)과 학습 데이터 확대(4.1T 토큰)의 효과다.


6장: 학습 파이프라인 — 4.1조 토큰의 여정

3단계 커리큘럼 학습

1단계: 비전 사전학습
~1.5T 토큰. ViT만 학습. 이미지 캡션, OCR, 시각 지식(유명인, 랜드마크, 동식물)
2단계: 멀티모달 공동 사전학습
~2T 토큰. ViT + LLM 함께 학습. VQA, 영상 그라운딩, 에이전트, 문서 파싱
3단계: 긴 컨텍스트 학습
긴 영상, 긴 문서, 확장된 에이전트 세션

후처리:

  • SFT(지도 파인튜닝): 구조화된 멀티모달 명령-응답 쌍
  • DPO(직접 선호 최적화): 인간 피드백 기반 정렬
4.1T 총 학습 토큰 Qwen2-VL(1.2T)의 3.4배
10+ OCR 지원 언어 한국어 포함
3가지 에이전트 플랫폼 모바일, 웹, 데스크톱
128K 최대 컨텍스트 토큰

학습 데이터의 구성이 모델의 강점을 결정한다:

  • 문서 데이터: 표, 차트, 수식, 악보, 화학식까지 HTML로 구조화 → OCR/문서에서 압도적 성능
  • 에이전트 데이터: 모바일/웹/데스크톱 환경에서의 UI 조작 데이터 → 스크린 이해·조작 능력
  • 영상 데이터: 다양한 FPS로 샘플링 → 프레임 레이트에 독립적인 영상 이해
  • 그라운딩 데이터: 절대 픽셀 좌표로 된 바운딩 박스 → 정확한 객체 위치 지정

7장: 벤치마크 결과 — 숫자가 말하는 것

GPT-4o와의 정면 대결 (72B)

주요 벤치마크 — Qwen2.5-VL-72B vs GPT-4o
MMMU (멀티모달 이해) 70.2 vs 70.3 (동급)
MathVista (수학+시각) 74.8 vs 63.8 (+17%)
DocVQA (문서 QA) 96.4 vs 91.1 (+5.8%)
OCRBench-V2 EN 61.5 vs 46.5 (+32%)
LVBench (긴 영상) 47.3 vs 30.8 (+54%)

패턴이 뚜렷하다:

  • 범용 이해(MMMU): GPT-4o와 사실상 동점 (70.2 vs 70.3)
  • 문서/OCR: 압도적 우위 — OCRBench-V2에서 GPT-4o 대비 32% 앞섬
  • 수학+시각: MathVista에서 74.8로 GPT-4o(63.8)를 17% 앞섬
  • 긴 영상: LVBench에서 47.3으로 GPT-4o(30.8)를 54% 앞섬

OCR — 모든 모델을 압도

Qwen2.5-VL의 가장 뚜렷한 강점은 문서·텍스트 이해다.

OCRBench-V2 영어/중국어
GPT-4o 46.5 / 32.3
Claude 3.5 45.2 / 39.6
Gemini 2.0 51.9 / 43.1
Qwen2.5-VL-72B 61.5 / 63.7

특히 중국어 OCR에서의 격차가 인상적이다 — GPT-4o의 32.3 대비 63.7로 거의 2배. 영수증, 계약서, 학술 논문 등 실무 문서 처리에서 이 차이는 결정적이다.

에이전트 능력 — 스마트폰을 조작하는 AI

87.1 ScreenSpot GPT-4o: 18.1
43.6 ScreenSpot Pro Claude 3.5와 동급
93.7 Android Control Low 모바일 UI 조작

ScreenSpot에서 GPT-4o 대비 4.8배 높은 점수는 놀랍다. Qwen2.5-VL은 스마트폰 화면을 보고 "설정 앱을 열어라", "와이파이를 켜라" 같은 작업을 수행할 수 있다. 별도의 태스크 특화 파인튜닝 없이.


8장: 실전 활용 — 이 모델로 무엇을 할 수 있는가

사례 1: 문서 구조 파싱

영수증, 계약서, 논문 PDF를 입력하면 표, 수식, 차트를 포함한 구조화된 HTML로 변환한다. 기존 OCR 파이프라인(감지 → 인식 → 후처리)을 하나의 모델로 대체하는 것이다.

활용: 회계·법무·연구 분야에서 수동 데이터 입력 대체. 특히 한국어·중국어·일본어가 섞인 다국어 문서에서 강점.

사례 2: 영상 속 이벤트 검색

2시간짜리 CCTV 영상에서 "빨간 옷을 입은 사람이 처음 나타나는 시점은?"이라고 물으면, 절대 타임스탬프로 답한다.

활용: 보안 모니터링, 스포츠 분석, 교육 영상에서 특정 장면 탐색.

사례 3: 스마트폰/컴퓨터 자동 조작

화면 스크린샷을 보고, 특정 목표를 달성하기 위해 어떤 버튼을 누르고, 어떤 텍스트를 입력해야 하는지 판단한다. 바운딩 박스와 좌표를 출력한다.

활용: RPA(로봇 프로세스 자동화), 접근성 도구, QA 자동화.

사례 4: 수학 문제 풀이 (사진 → 풀이)

손으로 쓴 수학 문제 사진을 찍으면, 수식을 인식하고 단계별로 풀이한다.

활용: 교육 앱, 과외 도구. MathVista 74.8의 수학+시각 능력이 뒷받침.


9장: Qwen2-VL에서 무엇이 달라졌는가

Qwen2-VL (2024)Qwen2.5-VL (2025)
ViT 초기화CLIP 기반처음부터 학습(from scratch)
ViT 어텐션전체 어텐션 (O(N²))윈도우 + 글로벌 혼합 (선형)
ViT 정규화LayerNormRMSNorm
ViT 활성화표준SwiGLU
시간 인코딩프레임 인덱스 기반절대 타임스탬프 정렬
FPS 처리고정동적 FPS
학습 토큰1.2T4.1T (3.4배)
모델 변형2B, 7B, 72B3B, 7B, 72B
에이전트 능력제한적모바일/웹/데스크톱 전 플랫폼
구조화 출력기본적HTML 포맷 문서 파싱

가장 큰 변화 세 가지를 꼽자면:

  1. ViT를 처음부터 학습 — CLIP의 제약(고정 해상도 편향)에서 해방
  2. 윈도우 어텐션 — 고해상도 이미지를 효율적으로 처리
  3. 절대 시간 정렬 M-RoPE — 영상의 실제 속도와 시간을 이해

10장: 2026년의 맥락 — 왜 이 모델이 중요한가

1. 오픈소스 VLM의 상용화 임계점

Qwen2.5-VL-72B는 GPT-4o와 사실상 동급이면서 오픈소스다. 이것은 기업들이 비전-언어 AI를 도입하는 방식을 바꾼다:

  • 프라이버시: 의료 이미지, 법률 문서를 외부 API에 보내지 않고 자체 서버에서 처리
  • 비용: API 호출 비용 대신 자체 인프라 비용만
  • 커스터마이징: 특정 도메인(의료 영상, 산업 검사)에 파인튜닝 가능

2. 3B 모델의 엣지 배포

Qwen2.5-VL-3B는 ~6GB VRAM으로 동작한다. 이것은 NVIDIA DGX Spark(128GB), 심지어 고급 스마트폰에서도 돌릴 수 있다는 뜻이다.

2026년, AI가 클라우드에서 엣지로 내려오는 흐름에서 — 스마트폰에서 문서를 스캔하고, 드론에서 영상을 분석하고, 산업 현장에서 불량을 검출하는 — 3B 크기의 강력한 VLM은 핵심 인프라가 된다.

3. 에이전트 AI의 "눈"

2026년의 가장 뜨거운 AI 트렌드 중 하나인 에이전트 AI. 에이전트가 실제로 작업을 수행하려면 — 웹 브라우저를 탐색하고, 앱을 조작하고, 문서를 분석하려면 — 화면을 "보는" 능력이 필수다.

Qwen2.5-VL의 ScreenSpot 87.1(GPT-4o의 18.1 대비 4.8배)은 이 모델이 에이전트의 시각 시스템으로 설계되었음을 보여준다. 실제로 NVIDIA의 NemoClaw, OpenAI의 Operator 등 에이전트 플랫폼에서 비전 컴포넌트로 활용되고 있다.

4. "문서 AI"의 게임 체인저

한국의 금융, 법률, 공공 행정 분야에서 PDF 문서 처리는 거대한 시장이다. 기존에는 OCR 엔진 + 레이아웃 분석 + 후처리 파이프라인이 필요했다. Qwen2.5-VL은 이 모든 것을 하나의 모델로 대체한다.

특히 한국어 + 영어가 혼재된 문서(계약서, 학술 논문, 영수증)에서 10개 이상의 언어를 지원하는 OCR 능력은 실질적으로 유용하다.


마치며: "보는 AI"의 설계 원칙

Qwen2.5-VL 논문을 관통하는 설계 철학을 정리하면:

  1. 있는 그대로 보라 — 이미지를 고정 크기로 강제하지 말고, 원래 해상도와 비율을 존중하라 (네이티브 동적 해상도)
  2. 효율적으로 보라 — 대부분은 로컬하게, 가끔만 글로벌하게 (윈도우 + 글로벌 어텐션)
  3. 시간을 이해하라 — 프레임 번호가 아닌 실제 시각으로 영상을 인코딩하라 (절대 시간 M-RoPE)
  4. 같은 눈, 다른 두뇌 — 비전 인코더를 공유하고 언어 모델만 스케일하라 (675M ViT + 3B/7B/72B LLM)
  5. 할 수 있는 것을 넓혀라 — 보는 것에서 행동하는 것으로 (에이전트, 그라운딩, 좌표 출력)

이 원칙들은 Qwen2.5-VL에 국한되지 않는다. 2026년에 등장하는 거의 모든 비전-언어 모델이 동적 해상도, 효율적 어텐션, 시간 인코딩, 에이전트 능력을 기본 사양으로 갖추고 있다. Qwen2.5-VL은 이 방향을 가장 체계적으로 정리하고 구현한 논문이다.

AI에게 눈을 달아주는 것은 시작에 불과하다. 진짜 도전은 본 것을 이해하고, 이해한 것을 바탕으로 행동하는 것이다. Qwen2.5-VL은 그 길 위에 놓인 가장 정교한 이정표 중 하나다.


부록: 핵심 용어 정리

주요 개념 한눈에 보기
비전-언어 모델(VLM): 이미지/영상과 텍스트를 동시에 입력받아 이해하는 AI 모델. GPT-4V, Gemini, Claude 3, Qwen2.5-VL 등.

비전 트랜스포머(ViT): 이미지를 패치로 나누어 트랜스포머로 처리하는 아키텍처. Qwen2.5-VL은 675M 파라미터의 ViT를 사용.

네이티브 동적 해상도: CLIP 등의 사전학습 없이, 처음부터 다양한 해상도의 이미지를 있는 그대로 처리하도록 학습한 ViT.

윈도우 어텐션: 전체 이미지가 아닌 로컬 영역(윈도우)에서만 어텐션을 계산하는 효율적 방식. 연산 비용이 이미지 크기에 선형적으로 증가.

M-RoPE(Multimodal RoPE): RoPE의 회전 각도를 시간·높이·너비 3차원으로 분할하여 텍스트·이미지·영상의 위치를 통합 인코딩하는 방법.

그라운딩(Grounding): AI가 이미지에서 특정 객체의 위치를 바운딩 박스나 좌표로 출력하는 능력. 에이전트가 "이 버튼을 클릭해라"고 지시할 때 필수.

이 글에서 다룬 논문: Shuai Bai et al., "Qwen2.5-VL Technical Report," arXiv:2502.13923 (2025). 모델과 코드: github.com/QwenLM/Qwen2.5-VL