멀티모달Qwen2.5-VL비전 언어 모델동적 해상도M-RoPEOCR비디오 이해

Qwen2.5-VL 해부: 문서도, 영상도, 스마트폰도 '보는' AI의 구조

GPT-4o와 동급의 시각 이해, OCR에서는 압도적 1위, 그리고 몇 시간짜리 영상까지 이해한다. 알리바바의 Qwen2.5-VL이 3B부터 72B까지 세 가지 크기로 내놓은 '보는 AI'의 설계도를 완전 해부한다.

코어닷투데이2026-02-2233분

들어가며: AI에게 "눈"을 달아주는 문제

인간은 텍스트를 읽으면서 동시에 그래프를 해석하고, 영상을 보면서 자막을 읽고, 스마트폰 화면을 보고 어떤 버튼을 눌러야 할지 판단한다. 이 모든 것은 시각과 언어를 동시에 처리하는 능력 덕분이다.

AI에게 이 능력을 주는 것이 비전-언어 모델(Vision-Language Model, VLM) 의 목표다. 하지만 여기에는 근본적인 어려움이 있다:

이미지는 크기도 비율도 제각각이다 — 정사각형 인스타그램 사진, 세로로 긴 스마트폰 스크린샷, 가로로 넓은 파노라마
영상은 시간 축이 추가된다 — 30초 클립과 2시간 영화를 같은 방식으로 처리할 수 없다
문서는 텍스트와 레이아웃이 얽혀 있다 — 표, 차트, 수식, 다단 레이아웃

2025년 2월, 알리바바의 Qwen 팀이 이 문제들을 정면으로 돌파한 모델을 발표했다.

논문 정보

"Qwen2.5-VL Technical Report"
저자: Shuai Bai 외 27명 (Alibaba Group Qwen Team)
arXiv: 2502.13923 (2025년 2월 19일)

모델 크기: 3B / 7B / 72B (3가지 변형)
핵심 결과: 72B 모델이 GPT-4o와 동급 성능, OCR에서는 모든 모델을 압도, 몇 시간짜리 영상 이해 가능
오픈소스: 모델 가중치 + 코드 전부 공개

1장: 멀티모달 AI의 역사 — 눈 먼 AI에서 보는 AI로

"눈 없는" 시대 (2017~2022)

GPT, BERT, T5 같은 초기 대형 언어 모델은 텍스트만 처리했다. 이미지를 이해하려면 별도의 비전 모델(ResNet, ViT)이 필요했고, 이 둘을 연결하는 것은 서툴렀다.

CLIP의 혁명 (2021)

OpenAI의 CLIP(Contrastive Language-Image Pre-training) 이 전환점이었다. 이미지와 텍스트를 같은 벡터 공간에 매핑하는 방법을 학습한 것이다. "강아지 사진"이라는 텍스트와 실제 강아지 사진이 벡터 공간에서 가까워지도록 학습했다.

GPT-4V와 멀티모달의 시대 (2023~2024)

2023년 GPT-4V(ision)가 등장하면서, 대형 언어 모델이 이미지를 직접 입력으로 받아 이해하는 시대가 열렸다. 이후 Google의 Gemini, Anthropic의 Claude 3가 뒤를 이었다.

오픈소스의 반격 (2024~2025)

상용 모델에 대한 오픈소스의 도전이 시작됐다. LLaVA, InternVL, 그리고 Qwen2-VL이 대표적이다. 특히 Qwen2-VL(2024년)은 동적 해상도 처리를 도입해 큰 주목을 받았다.

2021: CLIP
이미지-텍스트 정렬의 시작

↓

2023: GPT-4V, LLaVA
LLM이 이미지를 직접 "본다"

↓

2024: Qwen2-VL, Gemini 1.5
동적 해상도, 긴 영상 이해

↓

2025: Qwen2.5-VL
네이티브 동적 해상도 ViT, 절대 시간 인코딩, 에이전트 능력

2장: Qwen2.5-VL의 구조 — 세 개의 블록

Qwen2.5-VL의 구조는 세 부분으로 나뉜다: 비전 인코더(ViT), 커넥터(MLP), 언어 모델(LLM).

입력
이미지 / 영상 / 문서

↓

비전 인코더 (ViT)
675M 파라미터. 32 레이어. 윈도우 어텐션 + 글로벌 어텐션. 2D-RoPE

↓

커넥터 (MLP)
2×2 패치 → 1 토큰으로 공간 압축

↓

언어 모델 (Qwen2.5 LLM)
3B / 7B / 72B. M-RoPE로 텍스트+시각 위치 통합

↓

출력
텍스트 답변, 바운딩 박스, 좌표, 구조화된 데이터

흥미로운 점: 비전 인코더는 세 모델(3B, 7B, 72B) 모두 동일하다. 675M 파라미터의 같은 ViT를 공유하고, 연결된 언어 모델의 크기만 다르다.

3장: 핵심 혁신 ① — 네이티브 동적 해상도 ViT

기존 방식의 문제: "잘라서 맞추기"

대부분의 비전 모델은 이미지를 고정 크기(예: 224×224)로 리사이즈한다. 세로로 긴 문서를 정사각형으로 찌그러뜨리면 글자가 뭉개진다. 또는 이미지를 타일로 잘라서 각각 처리하는데, 이러면 타일 경계에서 맥락이 끊긴다.

Qwen2.5-VL의 해법: "있는 그대로 보기"

Qwen2.5-VL의 ViT는 처음부터(from scratch) 동적 해상도를 지원하도록 학습되었다. CLIP 같은 사전학습 모델에서 시작하지 않는다.

작동 방식:

이미지의 높이와 너비를 28의 배수로 리사이즈
14×14 패치로 분할 (겹침 없이)
2×2 공간 병합으로 토큰 수 1/4로 압축

예시: 224×224 이미지 → 16×16 = 256 패치 → 2×2 병합 → 66 토큰 1120×840 이미지(고해상도 문서) → 80×60 = 4,800 패치 → 2×2 병합 → 1,200 토큰

토큰 수가 이미지 크기에 비례하므로, 작은 아이콘은 적은 토큰으로, 고해상도 문서는 많은 토큰으로 처리된다. 이미지당 4~16,384 토큰까지 유동적으로 조절 가능하다.

윈도우 어텐션: O(N²) 문제의 해결

동적 해상도의 부작용: 고해상도 이미지의 패치가 수천 개가 되면, 모든 패치 쌍의 어텐션을 계산하는 것은 O(N²)으로 비용이 폭발한다.

Qwen2.5-VL의 해법: 32개 레이어 중 28개는 윈도우 어텐션, 4개만 글로벌 어텐션.

윈도우 어텐션 설계

윈도우 크기: 8×8 패치 = 112×112 픽셀
윈도우 어텐션: 레이어 0~6, 8~14, 16~22, 24~30 (28개)
글로벌 어텐션: 레이어 7, 15, 23, 31 (4개)

원리: 대부분의 시각적 특성(에지, 텍스처, 작은 객체)은 로컬이다. 인접 패치끼리만 봐도 충분하다. 하지만 이미지의 전체 구조(레이아웃, 장면 이해)를 위해 4개 레이어에서 모든 패치를 한 번에 본다.

효과: 연산 비용이 패치 수에 선형적으로 증가. Qwen2-VL(전체 어텐션)보다 고해상도 이미지에서 훨씬 효율적.

비유: 신문을 읽을 때, 한 문단 내에서는 바로 옆 줄만 보면 된다(윈도우 어텐션). 하지만 가끔 전체 지면 레이아웃을 확인해야 한다(글로벌 어텐션) — "이 그래프가 어느 기사에 속하는지" 같은 판단을 위해.

4장: 핵심 혁신 ② — M-RoPE와 절대 시간 인코딩

문제: 텍스트, 이미지, 영상의 위치를 어떻게 통합하나?

언어 모델에서 위치 정보는 단순하다 — 토큰의 순서(1번째, 2번째, 3번째...) 만 알면 된다. 하지만 이미지는 2차원(행, 열), 영상은 3차원(시간, 행, 열) 이다.

Qwen2.5-VL은 M-RoPE(Multimodal Rotary Position Embedding) 로 이 문제를 해결한다.

M-RoPE — 3차원 위치 인코딩

RoPE의 회전 각도 차원을 세 그룹으로 분할:

— 시간(temporal): 16차원
— 높이(height): 24차원
— 너비(width): 24차원
— 합계: 64차원

텍스트 토큰: 세 그룹 모두 같은 위치 ID (= 1차원 순서)
이미지 토큰: 시간 ID 고정, 높이/너비 ID만 변화 (= 2차원 격자)
영상 토큰: 시간 ID가 프레임마다 증가, 높이/너비도 변화 (= 3차원 격자)

핵심 혁신은 시간 차원의 절대 타임스탬프 정렬이다.

기존 방식에서는 영상의 프레임에 1, 2, 3... 같은 상대적 인덱스를 부여했다. 하지만 이러면 문제가 생긴다:

30fps로 촬영한 10초 영상(300프레임)과 1fps로 샘플링한 같은 영상(10프레임)이 같은 사건인데 완전히 다른 위치 인코딩을 받는다. 모델이 "이 동작이 3초 걸렸다"는 것을 이해할 수 없다.

Qwen2.5-VL은 시간 ID를 실제 타임스탬프(초 단위)에 정렬한다. 프레임이 몇 개든, 1.5초 지점의 프레임은 1.5초의 시간 ID를 받는다.

비유: 영화에 자막 타이밍을 맞추는 것과 같다. "15번째 프레임"이 아니라 "0:03:42"처럼 절대 시각으로 지정해야, 어떤 재생 속도에서든 자막이 정확히 맞는다.

이 덕분에 Qwen2.5-VL은 몇 시간짜리 영상에서도 "2시간 13분에 무슨 일이 있었나?"라는 질문에 답할 수 있다.

5장: 핵심 혁신 ③ — 3가지 크기, 같은 눈

Qwen2.5-VL은 3B, 7B, 72B 세 가지 크기로 나온다. 독특한 설계 결정: 세 모델 모두 동일한 비전 인코더(675M)를 공유한다.

Qwen2.5-VL 모델 변형

Qwen2.5-VL-3B ~5.75 GB VRAM LLM 36레이어, 2048 히든. 스마트폰/엣지 배포용. 이전 세대 7B에 필적하는 성능

Qwen2.5-VL-7B ~13 GB VRAM LLM 28레이어, 3584 히든. 균형잡힌 성능/효율. 대부분의 상용 API 대체 가능

Qwen2.5-VL-72B ~133 GB VRAM LLM 80레이어, 8192 히든. GPT-4o 동급. OCR/문서에서 업계 최고

특히 주목할 만한 것은 3B 모델의 효율성이다:

벤치마크	Qwen2-VL-7B (이전 세대)	Qwen2.5-VL-3B (이번 세대)
DocVQA	94.5	93.9
InfoVQA	76.5	77.1
MathVista	58.2	62.3
MathVision	16.3	21.2

3B 모델이 이전 세대 7B를 여러 벤치마크에서 능가한다. 파라미터 수가 절반 이하인데도. 이것은 아키텍처 개선(윈도우 어텐션, 네이티브 동적 해상도)과 학습 데이터 확대(4.1T 토큰)의 효과다.

6장: 학습 파이프라인 — 4.1조 토큰의 여정

3단계 커리큘럼 학습

1단계: 비전 사전학습
~1.5T 토큰. ViT만 학습. 이미지 캡션, OCR, 시각 지식(유명인, 랜드마크, 동식물)

↓

2단계: 멀티모달 공동 사전학습
~2T 토큰. ViT + LLM 함께 학습. VQA, 영상 그라운딩, 에이전트, 문서 파싱

↓

3단계: 긴 컨텍스트 학습
긴 영상, 긴 문서, 확장된 에이전트 세션

후처리:

SFT(지도 파인튜닝): 구조화된 멀티모달 명령-응답 쌍
DPO(직접 선호 최적화): 인간 피드백 기반 정렬

4.1T 총 학습 토큰 Qwen2-VL(1.2T)의 3.4배

10+ OCR 지원 언어 한국어 포함

3가지 에이전트 플랫폼 모바일, 웹, 데스크톱

128K 최대 컨텍스트 토큰

학습 데이터의 구성이 모델의 강점을 결정한다:

문서 데이터: 표, 차트, 수식, 악보, 화학식까지 HTML로 구조화 → OCR/문서에서 압도적 성능
에이전트 데이터: 모바일/웹/데스크톱 환경에서의 UI 조작 데이터 → 스크린 이해·조작 능력
영상 데이터: 다양한 FPS로 샘플링 → 프레임 레이트에 독립적인 영상 이해
그라운딩 데이터: 절대 픽셀 좌표로 된 바운딩 박스 → 정확한 객체 위치 지정

7장: 벤치마크 결과 — 숫자가 말하는 것

GPT-4o와의 정면 대결 (72B)

주요 벤치마크 — Qwen2.5-VL-72B vs GPT-4o

MMMU (멀티모달 이해) 70.2 vs 70.3 (동급)

MathVista (수학+시각) 74.8 vs 63.8 (+17%)

DocVQA (문서 QA) 96.4 vs 91.1 (+5.8%)

OCRBench-V2 EN 61.5 vs 46.5 (+32%)

LVBench (긴 영상) 47.3 vs 30.8 (+54%)

패턴이 뚜렷하다:

범용 이해(MMMU): GPT-4o와 사실상 동점 (70.2 vs 70.3)
문서/OCR: 압도적 우위 — OCRBench-V2에서 GPT-4o 대비 32% 앞섬
수학+시각: MathVista에서 74.8로 GPT-4o(63.8)를 17% 앞섬
긴 영상: LVBench에서 47.3으로 GPT-4o(30.8)를 54% 앞섬

OCR — 모든 모델을 압도

Qwen2.5-VL의 가장 뚜렷한 강점은 문서·텍스트 이해다.

OCRBench-V2 영어/중국어

GPT-4o 46.5 / 32.3

Claude 3.5 45.2 / 39.6

Gemini 2.0 51.9 / 43.1

Qwen2.5-VL-72B 61.5 / 63.7

특히 중국어 OCR에서의 격차가 인상적이다 — GPT-4o의 32.3 대비 63.7로 거의 2배. 영수증, 계약서, 학술 논문 등 실무 문서 처리에서 이 차이는 결정적이다.

에이전트 능력 — 스마트폰을 조작하는 AI

87.1 ScreenSpot GPT-4o: 18.1

43.6 ScreenSpot Pro Claude 3.5와 동급

93.7 Android Control Low 모바일 UI 조작

ScreenSpot에서 GPT-4o 대비 4.8배 높은 점수는 놀랍다. Qwen2.5-VL은 스마트폰 화면을 보고 "설정 앱을 열어라", "와이파이를 켜라" 같은 작업을 수행할 수 있다. 별도의 태스크 특화 파인튜닝 없이.

8장: 실전 활용 — 이 모델로 무엇을 할 수 있는가

사례 1: 문서 구조 파싱

영수증, 계약서, 논문 PDF를 입력하면 표, 수식, 차트를 포함한 구조화된 HTML로 변환한다. 기존 OCR 파이프라인(감지 → 인식 → 후처리)을 하나의 모델로 대체하는 것이다.

활용: 회계·법무·연구 분야에서 수동 데이터 입력 대체. 특히 한국어·중국어·일본어가 섞인 다국어 문서에서 강점.

사례 2: 영상 속 이벤트 검색

2시간짜리 CCTV 영상에서 "빨간 옷을 입은 사람이 처음 나타나는 시점은?"이라고 물으면, 절대 타임스탬프로 답한다.

활용: 보안 모니터링, 스포츠 분석, 교육 영상에서 특정 장면 탐색.

사례 3: 스마트폰/컴퓨터 자동 조작

화면 스크린샷을 보고, 특정 목표를 달성하기 위해 어떤 버튼을 누르고, 어떤 텍스트를 입력해야 하는지 판단한다. 바운딩 박스와 좌표를 출력한다.

활용: RPA(로봇 프로세스 자동화), 접근성 도구, QA 자동화.

사례 4: 수학 문제 풀이 (사진 → 풀이)

손으로 쓴 수학 문제 사진을 찍으면, 수식을 인식하고 단계별로 풀이한다.

활용: 교육 앱, 과외 도구. MathVista 74.8의 수학+시각 능력이 뒷받침.

9장: Qwen2-VL에서 무엇이 달라졌는가

	Qwen2-VL (2024)	Qwen2.5-VL (2025)
ViT 초기화	CLIP 기반	처음부터 학습(from scratch)
ViT 어텐션	전체 어텐션 (O(N²))	윈도우 + 글로벌 혼합 (선형)
ViT 정규화	LayerNorm	RMSNorm
ViT 활성화	표준	SwiGLU
시간 인코딩	프레임 인덱스 기반	절대 타임스탬프 정렬
FPS 처리	고정	동적 FPS
학습 토큰	1.2T	4.1T (3.4배)
모델 변형	2B, 7B, 72B	3B, 7B, 72B
에이전트 능력	제한적	모바일/웹/데스크톱 전 플랫폼
구조화 출력	기본적	HTML 포맷 문서 파싱

가장 큰 변화 세 가지를 꼽자면:

ViT를 처음부터 학습 — CLIP의 제약(고정 해상도 편향)에서 해방
윈도우 어텐션 — 고해상도 이미지를 효율적으로 처리
절대 시간 정렬 M-RoPE — 영상의 실제 속도와 시간을 이해

10장: 2026년의 맥락 — 왜 이 모델이 중요한가

1. 오픈소스 VLM의 상용화 임계점

Qwen2.5-VL-72B는 GPT-4o와 사실상 동급이면서 오픈소스다. 이것은 기업들이 비전-언어 AI를 도입하는 방식을 바꾼다:

프라이버시: 의료 이미지, 법률 문서를 외부 API에 보내지 않고 자체 서버에서 처리
비용: API 호출 비용 대신 자체 인프라 비용만
커스터마이징: 특정 도메인(의료 영상, 산업 검사)에 파인튜닝 가능

2. 3B 모델의 엣지 배포

Qwen2.5-VL-3B는 ~6GB VRAM으로 동작한다. 이것은 NVIDIA DGX Spark(128GB), 심지어 고급 스마트폰에서도 돌릴 수 있다는 뜻이다.

2026년, AI가 클라우드에서 엣지로 내려오는 흐름에서 — 스마트폰에서 문서를 스캔하고, 드론에서 영상을 분석하고, 산업 현장에서 불량을 검출하는 — 3B 크기의 강력한 VLM은 핵심 인프라가 된다.

3. 에이전트 AI의 "눈"

2026년의 가장 뜨거운 AI 트렌드 중 하나인 에이전트 AI. 에이전트가 실제로 작업을 수행하려면 — 웹 브라우저를 탐색하고, 앱을 조작하고, 문서를 분석하려면 — 화면을 "보는" 능력이 필수다.

Qwen2.5-VL의 ScreenSpot 87.1(GPT-4o의 18.1 대비 4.8배)은 이 모델이 에이전트의 시각 시스템으로 설계되었음을 보여준다. 실제로 NVIDIA의 NemoClaw, OpenAI의 Operator 등 에이전트 플랫폼에서 비전 컴포넌트로 활용되고 있다.

4. "문서 AI"의 게임 체인저

한국의 금융, 법률, 공공 행정 분야에서 PDF 문서 처리는 거대한 시장이다. 기존에는 OCR 엔진 + 레이아웃 분석 + 후처리 파이프라인이 필요했다. Qwen2.5-VL은 이 모든 것을 하나의 모델로 대체한다.

특히 한국어 + 영어가 혼재된 문서(계약서, 학술 논문, 영수증)에서 10개 이상의 언어를 지원하는 OCR 능력은 실질적으로 유용하다.

마치며: "보는 AI"의 설계 원칙

Qwen2.5-VL 논문을 관통하는 설계 철학을 정리하면:

있는 그대로 보라 — 이미지를 고정 크기로 강제하지 말고, 원래 해상도와 비율을 존중하라 (네이티브 동적 해상도)
효율적으로 보라 — 대부분은 로컬하게, 가끔만 글로벌하게 (윈도우 + 글로벌 어텐션)
시간을 이해하라 — 프레임 번호가 아닌 실제 시각으로 영상을 인코딩하라 (절대 시간 M-RoPE)
같은 눈, 다른 두뇌 — 비전 인코더를 공유하고 언어 모델만 스케일하라 (675M ViT + 3B/7B/72B LLM)
할 수 있는 것을 넓혀라 — 보는 것에서 행동하는 것으로 (에이전트, 그라운딩, 좌표 출력)

이 원칙들은 Qwen2.5-VL에 국한되지 않는다. 2026년에 등장하는 거의 모든 비전-언어 모델이 동적 해상도, 효율적 어텐션, 시간 인코딩, 에이전트 능력을 기본 사양으로 갖추고 있다. Qwen2.5-VL은 이 방향을 가장 체계적으로 정리하고 구현한 논문이다.

AI에게 눈을 달아주는 것은 시작에 불과하다. 진짜 도전은 본 것을 이해하고, 이해한 것을 바탕으로 행동하는 것이다. Qwen2.5-VL은 그 길 위에 놓인 가장 정교한 이정표 중 하나다.

부록: 핵심 용어 정리

주요 개념 한눈에 보기

비전-언어 모델(VLM): 이미지/영상과 텍스트를 동시에 입력받아 이해하는 AI 모델. GPT-4V, Gemini, Claude 3, Qwen2.5-VL 등.

비전 트랜스포머(ViT): 이미지를 패치로 나누어 트랜스포머로 처리하는 아키텍처. Qwen2.5-VL은 675M 파라미터의 ViT를 사용.

네이티브 동적 해상도: CLIP 등의 사전학습 없이, 처음부터 다양한 해상도의 이미지를 있는 그대로 처리하도록 학습한 ViT.

윈도우 어텐션: 전체 이미지가 아닌 로컬 영역(윈도우)에서만 어텐션을 계산하는 효율적 방식. 연산 비용이 이미지 크기에 선형적으로 증가.

M-RoPE(Multimodal RoPE): RoPE의 회전 각도를 시간·높이·너비 3차원으로 분할하여 텍스트·이미지·영상의 위치를 통합 인코딩하는 방법.

그라운딩(Grounding): AI가 이미지에서 특정 객체의 위치를 바운딩 박스나 좌표로 출력하는 능력. 에이전트가 "이 버튼을 클릭해라"고 지시할 때 필수.

이 글에서 다룬 논문: Shuai Bai et al., "Qwen2.5-VL Technical Report," arXiv:2502.13923 (2025). 모델과 코드: github.com/QwenLM/Qwen2.5-VL

기술2026.03.19