
Qwen2.5-VL 해부: 문서도, 영상도, 스마트폰도 '보는' AI의 구조
GPT-4o와 동급의 시각 이해, OCR에서는 압도적 1위, 그리고 몇 시간짜리 영상까지 이해한다. 알리바바의 Qwen2.5-VL이 3B부터 72B까지 세 가지 크기로 내놓은 '보는 AI'의 설계도를 완전 해부한다.

GPT-4o와 동급의 시각 이해, OCR에서는 압도적 1위, 그리고 몇 시간짜리 영상까지 이해한다. 알리바바의 Qwen2.5-VL이 3B부터 72B까지 세 가지 크기로 내놓은 '보는 AI'의 설계도를 완전 해부한다.
인간은 텍스트를 읽으면서 동시에 그래프를 해석하고, 영상을 보면서 자막을 읽고, 스마트폰 화면을 보고 어떤 버튼을 눌러야 할지 판단한다. 이 모든 것은 시각과 언어를 동시에 처리하는 능력 덕분이다.
AI에게 이 능력을 주는 것이 비전-언어 모델(Vision-Language Model, VLM) 의 목표다. 하지만 여기에는 근본적인 어려움이 있다:
2025년 2월, 알리바바의 Qwen 팀이 이 문제들을 정면으로 돌파한 모델을 발표했다.
GPT, BERT, T5 같은 초기 대형 언어 모델은 텍스트만 처리했다. 이미지를 이해하려면 별도의 비전 모델(ResNet, ViT)이 필요했고, 이 둘을 연결하는 것은 서툴렀다.
OpenAI의 CLIP(Contrastive Language-Image Pre-training) 이 전환점이었다. 이미지와 텍스트를 같은 벡터 공간에 매핑하는 방법을 학습한 것이다. "강아지 사진"이라는 텍스트와 실제 강아지 사진이 벡터 공간에서 가까워지도록 학습했다.
2023년 GPT-4V(ision)가 등장하면서, 대형 언어 모델이 이미지를 직접 입력으로 받아 이해하는 시대가 열렸다. 이후 Google의 Gemini, Anthropic의 Claude 3가 뒤를 이었다.
상용 모델에 대한 오픈소스의 도전이 시작됐다. LLaVA, InternVL, 그리고 Qwen2-VL이 대표적이다. 특히 Qwen2-VL(2024년)은 동적 해상도 처리를 도입해 큰 주목을 받았다.
Qwen2.5-VL의 구조는 세 부분으로 나뉜다: 비전 인코더(ViT), 커넥터(MLP), 언어 모델(LLM).
흥미로운 점: 비전 인코더는 세 모델(3B, 7B, 72B) 모두 동일하다. 675M 파라미터의 같은 ViT를 공유하고, 연결된 언어 모델의 크기만 다르다.
대부분의 비전 모델은 이미지를 고정 크기(예: 224×224)로 리사이즈한다. 세로로 긴 문서를 정사각형으로 찌그러뜨리면 글자가 뭉개진다. 또는 이미지를 타일로 잘라서 각각 처리하는데, 이러면 타일 경계에서 맥락이 끊긴다.
Qwen2.5-VL의 ViT는 처음부터(from scratch) 동적 해상도를 지원하도록 학습되었다. CLIP 같은 사전학습 모델에서 시작하지 않는다.
작동 방식:
예시: 224×224 이미지 → 16×16 = 256 패치 → 2×2 병합 → 66 토큰 1120×840 이미지(고해상도 문서) → 80×60 = 4,800 패치 → 2×2 병합 → 1,200 토큰
토큰 수가 이미지 크기에 비례하므로, 작은 아이콘은 적은 토큰으로, 고해상도 문서는 많은 토큰으로 처리된다. 이미지당 4~16,384 토큰까지 유동적으로 조절 가능하다.
동적 해상도의 부작용: 고해상도 이미지의 패치가 수천 개가 되면, 모든 패치 쌍의 어텐션을 계산하는 것은 O(N²)으로 비용이 폭발한다.
Qwen2.5-VL의 해법: 32개 레이어 중 28개는 윈도우 어텐션, 4개만 글로벌 어텐션.
비유: 신문을 읽을 때, 한 문단 내에서는 바로 옆 줄만 보면 된다(윈도우 어텐션). 하지만 가끔 전체 지면 레이아웃을 확인해야 한다(글로벌 어텐션) — "이 그래프가 어느 기사에 속하는지" 같은 판단을 위해.
언어 모델에서 위치 정보는 단순하다 — 토큰의 순서(1번째, 2번째, 3번째...) 만 알면 된다. 하지만 이미지는 2차원(행, 열), 영상은 3차원(시간, 행, 열) 이다.
Qwen2.5-VL은 M-RoPE(Multimodal Rotary Position Embedding) 로 이 문제를 해결한다.
핵심 혁신은 시간 차원의 절대 타임스탬프 정렬이다.
기존 방식에서는 영상의 프레임에 1, 2, 3... 같은 상대적 인덱스를 부여했다. 하지만 이러면 문제가 생긴다:
30fps로 촬영한 10초 영상(300프레임)과 1fps로 샘플링한 같은 영상(10프레임)이 같은 사건인데 완전히 다른 위치 인코딩을 받는다. 모델이 "이 동작이 3초 걸렸다"는 것을 이해할 수 없다.
Qwen2.5-VL은 시간 ID를 실제 타임스탬프(초 단위)에 정렬한다. 프레임이 몇 개든, 1.5초 지점의 프레임은 1.5초의 시간 ID를 받는다.
비유: 영화에 자막 타이밍을 맞추는 것과 같다. "15번째 프레임"이 아니라 "0:03:42"처럼 절대 시각으로 지정해야, 어떤 재생 속도에서든 자막이 정확히 맞는다.
이 덕분에 Qwen2.5-VL은 몇 시간짜리 영상에서도 "2시간 13분에 무슨 일이 있었나?"라는 질문에 답할 수 있다.
Qwen2.5-VL은 3B, 7B, 72B 세 가지 크기로 나온다. 독특한 설계 결정: 세 모델 모두 동일한 비전 인코더(675M)를 공유한다.
특히 주목할 만한 것은 3B 모델의 효율성이다:
| 벤치마크 | Qwen2-VL-7B (이전 세대) | Qwen2.5-VL-3B (이번 세대) |
|---|---|---|
| DocVQA | 94.5 | 93.9 |
| InfoVQA | 76.5 | 77.1 |
| MathVista | 58.2 | 62.3 |
| MathVision | 16.3 | 21.2 |
3B 모델이 이전 세대 7B를 여러 벤치마크에서 능가한다. 파라미터 수가 절반 이하인데도. 이것은 아키텍처 개선(윈도우 어텐션, 네이티브 동적 해상도)과 학습 데이터 확대(4.1T 토큰)의 효과다.
후처리:
학습 데이터의 구성이 모델의 강점을 결정한다:
패턴이 뚜렷하다:
Qwen2.5-VL의 가장 뚜렷한 강점은 문서·텍스트 이해다.
특히 중국어 OCR에서의 격차가 인상적이다 — GPT-4o의 32.3 대비 63.7로 거의 2배. 영수증, 계약서, 학술 논문 등 실무 문서 처리에서 이 차이는 결정적이다.
ScreenSpot에서 GPT-4o 대비 4.8배 높은 점수는 놀랍다. Qwen2.5-VL은 스마트폰 화면을 보고 "설정 앱을 열어라", "와이파이를 켜라" 같은 작업을 수행할 수 있다. 별도의 태스크 특화 파인튜닝 없이.
영수증, 계약서, 논문 PDF를 입력하면 표, 수식, 차트를 포함한 구조화된 HTML로 변환한다. 기존 OCR 파이프라인(감지 → 인식 → 후처리)을 하나의 모델로 대체하는 것이다.
활용: 회계·법무·연구 분야에서 수동 데이터 입력 대체. 특히 한국어·중국어·일본어가 섞인 다국어 문서에서 강점.
2시간짜리 CCTV 영상에서 "빨간 옷을 입은 사람이 처음 나타나는 시점은?"이라고 물으면, 절대 타임스탬프로 답한다.
활용: 보안 모니터링, 스포츠 분석, 교육 영상에서 특정 장면 탐색.
화면 스크린샷을 보고, 특정 목표를 달성하기 위해 어떤 버튼을 누르고, 어떤 텍스트를 입력해야 하는지 판단한다. 바운딩 박스와 좌표를 출력한다.
활용: RPA(로봇 프로세스 자동화), 접근성 도구, QA 자동화.
손으로 쓴 수학 문제 사진을 찍으면, 수식을 인식하고 단계별로 풀이한다.
활용: 교육 앱, 과외 도구. MathVista 74.8의 수학+시각 능력이 뒷받침.
| Qwen2-VL (2024) | Qwen2.5-VL (2025) | |
|---|---|---|
| ViT 초기화 | CLIP 기반 | 처음부터 학습(from scratch) |
| ViT 어텐션 | 전체 어텐션 (O(N²)) | 윈도우 + 글로벌 혼합 (선형) |
| ViT 정규화 | LayerNorm | RMSNorm |
| ViT 활성화 | 표준 | SwiGLU |
| 시간 인코딩 | 프레임 인덱스 기반 | 절대 타임스탬프 정렬 |
| FPS 처리 | 고정 | 동적 FPS |
| 학습 토큰 | 1.2T | 4.1T (3.4배) |
| 모델 변형 | 2B, 7B, 72B | 3B, 7B, 72B |
| 에이전트 능력 | 제한적 | 모바일/웹/데스크톱 전 플랫폼 |
| 구조화 출력 | 기본적 | HTML 포맷 문서 파싱 |
가장 큰 변화 세 가지를 꼽자면:
Qwen2.5-VL-72B는 GPT-4o와 사실상 동급이면서 오픈소스다. 이것은 기업들이 비전-언어 AI를 도입하는 방식을 바꾼다:
Qwen2.5-VL-3B는 ~6GB VRAM으로 동작한다. 이것은 NVIDIA DGX Spark(128GB), 심지어 고급 스마트폰에서도 돌릴 수 있다는 뜻이다.
2026년, AI가 클라우드에서 엣지로 내려오는 흐름에서 — 스마트폰에서 문서를 스캔하고, 드론에서 영상을 분석하고, 산업 현장에서 불량을 검출하는 — 3B 크기의 강력한 VLM은 핵심 인프라가 된다.
2026년의 가장 뜨거운 AI 트렌드 중 하나인 에이전트 AI. 에이전트가 실제로 작업을 수행하려면 — 웹 브라우저를 탐색하고, 앱을 조작하고, 문서를 분석하려면 — 화면을 "보는" 능력이 필수다.
Qwen2.5-VL의 ScreenSpot 87.1(GPT-4o의 18.1 대비 4.8배)은 이 모델이 에이전트의 시각 시스템으로 설계되었음을 보여준다. 실제로 NVIDIA의 NemoClaw, OpenAI의 Operator 등 에이전트 플랫폼에서 비전 컴포넌트로 활용되고 있다.
한국의 금융, 법률, 공공 행정 분야에서 PDF 문서 처리는 거대한 시장이다. 기존에는 OCR 엔진 + 레이아웃 분석 + 후처리 파이프라인이 필요했다. Qwen2.5-VL은 이 모든 것을 하나의 모델로 대체한다.
특히 한국어 + 영어가 혼재된 문서(계약서, 학술 논문, 영수증)에서 10개 이상의 언어를 지원하는 OCR 능력은 실질적으로 유용하다.
Qwen2.5-VL 논문을 관통하는 설계 철학을 정리하면:
이 원칙들은 Qwen2.5-VL에 국한되지 않는다. 2026년에 등장하는 거의 모든 비전-언어 모델이 동적 해상도, 효율적 어텐션, 시간 인코딩, 에이전트 능력을 기본 사양으로 갖추고 있다. Qwen2.5-VL은 이 방향을 가장 체계적으로 정리하고 구현한 논문이다.
AI에게 눈을 달아주는 것은 시작에 불과하다. 진짜 도전은 본 것을 이해하고, 이해한 것을 바탕으로 행동하는 것이다. Qwen2.5-VL은 그 길 위에 놓인 가장 정교한 이정표 중 하나다.
이 글에서 다룬 논문: Shuai Bai et al., "Qwen2.5-VL Technical Report," arXiv:2502.13923 (2025). 모델과 코드: github.com/QwenLM/Qwen2.5-VL