
Vision-R1 특집: AI에게 '눈으로 보고 생각하는 법'을 가르치다 — 과잉사고의 함정부터 점진적 훈련까지
DeepSeek-R1이 텍스트에서 '생각하는 법'을 배웠다면, Vision-R1은 이미지를 보면서 생각하는 법을 배웠다. 하지만 그 과정에서 AI가 '쓸데없이 오래 생각하는' 과잉사고 문제에 빠졌다. ICLR 2026에서 발표된 이 논문이 제시한 점진적 사고 억제 훈련의 원리를, 일러스트와 인터랙티브 요소로 쉽고 깊게 풀어본다.

DeepSeek-R1이 텍스트에서 '생각하는 법'을 배웠다면, Vision-R1은 이미지를 보면서 생각하는 법을 배웠다. 하지만 그 과정에서 AI가 '쓸데없이 오래 생각하는' 과잉사고 문제에 빠졌다. ICLR 2026에서 발표된 이 논문이 제시한 점진적 사고 억제 훈련의 원리를, 일러스트와 인터랙티브 요소로 쉽고 깊게 풀어본다.
한 가지 사고 실험을 해보자.
6살 아이에게 삼각형 그림을 보여주고 "이 삼각형의 넓이를 구해봐"라고 하면, 아이는 그림은 잘 보지만 풀이 방법을 모른다. 반대로, 수학 천재에게 눈을 가리고 같은 문제를 읽어주면, 풀이 방법은 알지만 그림의 정보를 활용하지 못한다.
2025년까지 AI의 상황도 이와 비슷했다.
대규모 언어 모델(LLM)은 텍스트로 된 수학 문제를 "생각하며" 풀 수 있게 되었다. DeepSeek-R1은 강화학습만으로 "잠깐, 다시 생각해보자..."라는 반성적 사고를 자발적으로 학습했다. 하지만 이 능력은 텍스트에만 적용되었다. 그래프, 도표, 기하학 그림 같은 시각 정보가 포함된 문제에서는 무력했다.
반대로, 비전-언어 모델(VLM)은 이미지를 "볼" 수 있었지만, 복잡한 추론은 하지 못했다. 이미지를 보고 "삼각형이 있네요, 빗변의 길이는 5입니다"까지는 말할 수 있지만, 여러 단계에 걸친 기하학적 추론은 어려웠다.
2025년 3월, 한 연구팀이 이 둘을 결합하려고 시도했다. "이미지를 보면서 깊이 생각하는 AI"를 만들려 한 것이다. 그리고 그 과정에서 예상치 못한 함정을 발견했다.
AI가 "생각하는 법"을 배웠더니, 쓸데없이 오래 생각하는 "과잉사고(overthinking)" 문제에 빠진 것이다.
이것이 Vision-R1 논문의 이야기다. ICLR 2026에 채택된 이 연구가 발견한 문제와 해법을 특집으로 깊이 풀어본다.
2023년까지 LLM의 답변 방식은 직감적이었다. 질문을 받으면 즉시 답변을 생성했다. "2+3=?"이라고 물으면 "5"라고 바로 답하는 식이다. 간단한 문제는 이것으로 충분하지만, 복잡한 추론이 필요한 문제에서는 오류가 잦았다.
연쇄 사고(Chain-of-Thought, CoT)라는 개념이 이 한계를 돌파했다. "단계별로 생각해봐"라는 프롬프트를 추가하면, 모델이 중간 과정을 거치면서 정확도가 크게 오르는 현상이 발견된 것이다.
"삼각형의 넓이는 12입니다"
중간 과정 없이 바로 답변"밑변이 6이고 높이가 4이니까...
넓이 = ½ × 6 × 4 = 12"
이후 이 사고 능력을 더 발전시키기 위한 여러 접근법이 등장했다:
| 시기 | 접근법 | 핵심 아이디어 |
|---|---|---|
| 2022 | Chain-of-Thought | "단계별로 생각해봐"라고 프롬프트 |
| 2023 | Tree-of-Thought | 여러 사고 경로를 트리 형태로 탐색 |
| 2024 | GRPO / DeepSeek-R1 | RL로 사고 능력을 자발적으로 학습 |
| 2025 | Vision-R1 | 이미지를 보면서 사고하는 능력을 RL로 학습 |
2025년 1월, DeepSeek-R1은 강화학습(RL)만으로 AI가 반성적 사고를 자발적으로 학습할 수 있다는 것을 증명했다. 정답이면 보상 +1, 오답이면 -1이라는 단순한 규칙만 주었더니, 모델이 스스로 "잠깐, 다시 생각해보자", "이 접근법에 실수가 있는 것 같다"라는 사고 패턴을 발명한 것이다.
하지만 DeepSeek-R1에는 결정적 한계가 있었다: 텍스트만 처리할 수 있었다. 기하학 도형, 차트, 사진 같은 시각 정보가 포함된 문제는 아예 풀 수 없었다.
Vision-R1 연구팀이 던진 핵심 질문:
"DeepSeek-R1처럼 강화학습으로 멀티모달 LLM에도 추론 능력을 불어넣을 수 있는가?"
답을 찾기 위한 여정에서 세 가지 중요한 발견을 했다:
연구팀은 먼저 DeepSeek-R1과 동일한 접근을 시도했다. 기존 VLM(Qwen2.5-VL-7B)에 직접 GRPO(Group Relative Policy Optimization)를 적용해서, 수학 문제 1만 개로 강화학습을 시킨 것이다.
보상은 두 가지:
<think>...</think> 태그 안에 사고 과정을 넣었는가?결과는 실패였다.
모델은 길고 복잡한 연쇄 사고를 생성하지 못했다. 아무리 훈련을 늘려도 성능이 정체되었다. 평균 출력 길이는 1,285 토큰**에 불과했고, 정확도는 **50.7%였다.
왜 텍스트 전용 DeepSeek-R1에서는 RL이 작동했는데, 멀티모달에서는 안 되는 걸까?
텍스트 추론은 "정보 입력 → 사고 → 답변"이라는 직선적 구조다. 하지만 멀티모달 추론은 이중 과제다:
RL만으로는 이 두 능력을 동시에 학습하기 어렵다. 모델이 "이미지에서 정보를 추출하는 법"과 "추출한 정보로 추론하는 법"을 처음부터 동시에 배워야 하기 때문이다. 먼저 좋은 사고의 "본보기"를 보여주고(cold-start), 그 다음 RL로 강화하는 2단계 접근이 필요했다.
고품질 사고 데이터가 필요한데, 최고의 추론 AI인 DeepSeek-R1은 이미지를 볼 수 없다. 그렇다고 GPT-4o 같은 비공개 VLM에 의존하면 "진짜 연구"가 아니다.
연구팀은 기발한 해법을 생각해냈다: "그림을 보는 AI에게 설명을 쓰게 하고, 그 설명을 생각하는 AI에게 넘기자."
이것이 모달리티 브릿징(Modality Bridging)이다.
핵심: "그림을 보는 AI"가 통역사 역할을 하고, "생각하는 AI"가 고품질 추론을 담당한다. 이 둘을 잇는 다리가 "텍스트로 된 시각 설명"이다.
이 파이프라인으로 20만 개의 멀티모달 CoT 데이터를 생성했다. 수학, 과학, 의학, 차트 이해 등 37가지 소스에서 수집한 이미지-질문 쌍을 사용했다.
기존 CoT 데이터셋과의 품질 차이는 자기 반성 지표(self-reflective indicators)를 세어보면 극명하게 드러난다:
"Hmm"이 1회 vs 75,853회. 이것이 "가짜 CoT"와 "진짜 CoT"의 차이다. DeepSeek-R1이 생성한 CoT에는 사람의 자연스러운 사고 과정 — 의문, 망설임, 대안 탐색, 실수 인정 — 이 풍부하게 담겨 있다.

Vision-R1-cold 데이터셋으로 모델을 SFT(지도 학습)하면, 모델(Vision-R1-CI)은 복잡한 추론 형식을 학습한다. "잠깐, 다시 생각해보자..." 같은 반성적 사고 패턴을 구사하게 된다.
하지만 심각한 문제가 발생했다.
모델이 쓸데없이 길게 생각**하기 시작한 것이다. 평균 출력 길이가 3,566 토큰으로 증가했는데, 정작 정확도는 **44.5%로 — 워밍업 전의 50.7%보다 오히려 떨어졌다.
왜 이런 일이 일어나는 걸까? 연구팀이 분석한 결과:
올바른 추론은 짧은 체인에 집중되어 있었다. 모델이 3,000 토큰을 생성해도, 정답에 도달하는 올바른 추론 경로는 처음 1,000~1,500 토큰 안에 있는 경우가 대부분이었다. 나머지 1,500 토큰은 이미 맞는 답을 의심하고, 불필요한 대안을 탐색하고, 때로는 올바른 답을 뒤집어버리는 쓸데없는 사고였다.
비유하자면 이런 것이다:
시험을 볼 때 "이게 맞나?" 하고 지우개로 지우다가 오히려 틀리는 경험, 누구나 해봤을 것이다. AI도 같은 함정에 빠진 것이다.
과잉사고하는 모델(Vision-R1-CI)에 바로 RL을 적용하면 어떻게 될까? 16K 토큰까지 허용하고 GRPO를 적용한 결과(Vision-R1-Long):
개선은 있지만 불충분하다. 모델은 여전히 길게 생각하고, 정확도는 RL 이전 기본 모델(50.7%)에도 못 미친다. RL이 과잉사고 습관을 교정하기에는 한계가 있었다.

PTST(Progressive Thinking Suppression Training)의 발상은 교육학에서 영감을 받은 것 같다:
처음에는 답을 짧게 쓰도록 제한해서 "핵심만 말하는 습관"을 기르고, 이후 점차 제한을 풀어 복잡한 문제도 풀 수 있게 한다.
이것은 마치 글쓰기를 배울 때, 처음에는 "한 문장으로 요약해봐"부터 시작하고, 나중에 "두 문단으로 써봐", "에세이를 써봐"로 점진적으로 늘리는 것과 같다.
Stage 1 (짧고 정확하게):
Stage 2 (점진적으로 확장):
Stage 3 (16K, 사용 안 함):
PTST에서 보상은 매우 엄격하다:
형식이 올바르고 AND 정답이 맞아야만 보상
<think>...</think> 형식 + 정답 일치형식이 틀리거나 OR 정답이 틀리면 무보상
부분 점수 없음 — 전부 아니면 전무기존 Vision-R1-Zero에서는 형식 보상과 결과 보상을 분리했지만(비율 1:1), PTST에서는 결합했다. "형식도 맞고 답도 맞아야 보상"이라는 엄격한 기준이 모델을 더 정확한 추론으로 이끈다.
논문은 다양한 스케줄 조합을 실험했다:
| Stage 1 | Stage 2 | 평균 정확도 |
|---|---|---|
| 4K×16 | 8K×8 | 55.4% (최적) |
| 4K×16 | 4K×16 | 54.3% |
| 4K×16 | 8K×16 | 55.3% |
| 16K×4 | 16K×4 | 47.7% |
| 16K×16 | 16K×16 | 47.9% |
처음부터 16K를 허용하면 47.7~47.9%로 최악. 4K에서 시작해 8K로 넓히는 것이 최적이다. 3단계(4K→6K→8K)를 추가해도 55.1%로 거의 차이가 없어, 2단계면 충분하다는 결론이다.
"샘플 수 × 길이" 곱을 일정하게 유지한 것도 주목할 만하다. Stage 1에서 16개 × 4K = 64K, Stage 2에서 8개 × 8K = 64K. 이렇게 하면 스테이지 간 연산 비용이 일정하면서도, 모델이 "짧은 다양한 답변 → 긴 정교한 답변"으로 자연스럽게 전환한다.
Vision-R1의 핵심 성과는 수학 추론에서 나타난다:
Vision-R1-7B가 OpenAI O1과 0.4% 차이. 7B(70억) 파라미터 모델이 최정상급 추론 AI에 근접한 것이다.
더 큰 모델에서의 결과는 더 인상적이다:
| 모델 | MathVista | MathVerse | MM-Math |
|---|---|---|---|
| Vision-R1-7B | 73.5% | 79.0% | 83.2% |
| Vision-R1-32B | 85.8% | 82.6% | 88.0% |
| Vision-R1-72B | 88.3% | 86.8% | 89.4% |
특히 기하학과 대수학에서의 개선이 압도적이다:
대수학에서 34.1% → 79.0%로 44.9%p 향상. 기하학에서 46.7% → 80.3%로 33.6%p 향상. 이 수치는 "약간의 개선"이 아니라 근본적인 능력 변화를 나타낸다.
Vision-R1-cold 데이터셋의 범용성을 검증하기 위해, 완전히 다른 VLM(Llama-3.2-11B-Vision)에도 적용해 봤다:
| 모델 | MathVista | MathVerse | MM-Math |
|---|---|---|---|
| Llama-3.2-11B 기본 | 48.6% | 8.4% | 4.1% |
| LLaVA-CoT-11B | 54.8% | 20.3% | 16.5% |
| Vision-R1-cold로 훈련 | 62.7% | 27.1% | 26.1% |
기본 모델(48.6%)에서 62.7%로 14.1%p 향상. LLaVA-CoT(54.8%)도 크게 능가한다. 이것은 Vision-R1-cold 데이터셋의 품질이 특정 모델에 종속되지 않고 범용적으로 유효하다는 증거다.
Vision-R1 훈련 이후, 모델의 사고 과정에서 인간과 유사한 자연스러운 추론 패턴이 관찰된다:
핵심은 이 모든 패턴 — 의문 제기("잠깐"), 대안 탐색("만약...이라면"), 자기 검증("단위를 보면") — 이 명시적으로 프로그래밍된 것이 아니라, 강화학습 과정에서 자발적으로 출현했다는 것이다.
50.7%
추론 능력 학습 실패51.8%
기본 추론 패턴 부재44.5%
과잉사고로 오히려 악화55.4%
최적 조합Cold-Start(SFT)만 하면 과잉사고 때문에 44.5%로 악화되고, PTST만 하면 기본 추론 패턴이 없어서 51.8%에 그친다. 둘 다 필요하다. Cold-Start로 "생각하는 형식"을 배우고, PTST로 "효율적으로 생각하는 법"을 배우는 것이다.
특히 MM-Math에서의 차이가 극적이다: RL만(28.8%) vs Cold-Start+PTST(40.2%). 복잡한 수학 문제일수록 고품질 사고 데이터의 사전 학습이 결정적이다.
Vision-R1은 "멀티모달 AI가 깊이 생각할 수 있다"는 것을 최초로 체계적으로 증명했다. 2026년 현재, 이 논문이 제시한 세 가지 개념이 후속 연구의 기초가 되고 있다:
Vision-R1의 과잉사고 문제와 해결법은 인간 교육에서도 익숙한 현상이다.
학생에게 "자세하게 풀이를 써라"라고 가르치면, 일부 학생은 불필요한 풀이를 장황하게 써서 오히려 틀리는 경우가 있다. 좋은 교사는 "핵심만 먼저 써보고, 그 다음 자세하게 확장해"라고 가르친다. PTST는 정확히 이 교수법을 AI에게 적용한 것이다.
Vision-R1-7B(7B 파라미터)가 OpenAI O1과 0.4% 차이라는 것은, 적절한 훈련 방법론이 모델 크기를 압도할 수 있음을 보여준다. 이것은 자원이 제한된 연구팀이나 기업에게 큰 희망이다 — 거대 모델을 만들 수 없어도, 똑똑한 훈련 전략으로 경쟁할 수 있다.
멀티모달 LLM에 RL만 적용하면 실패한다. 고품질 CoT로 워밍업(cold-start)한 뒤, 점진적으로 사고 길이를 확장하는 PTST가 필요하다.
"보는 AI"가 이미지를 텍스트로 설명 → "생각하는 AI"(DeepSeek-R1)가 고품질 CoT 생성. 비공개 VLM 없이 20만 데이터 확보.
사고하는 법을 배운 AI가 쓸데없이 길게 생각해 정답을 뒤집는 현상. 출력 길이가 길수록 정확도가 오히려 하락.
Stage 1(4K, 16샘플) → Stage 2(8K, 8샘플). 처음엔 짧게 쓰도록 제약, 점차 확장. "핵심 먼저, 확장은 나중에."
7B 모델로 OpenAI O1에 0.4% 차이. 기하학 +33.6%p, 대수학 +44.9%p 향상. ICLR 2026 채택.
Vision-R1이 우리에게 알려주는 것은 단순한 기술적 사실을 넘어선다:
"많이 생각하는 것"과 "잘 생각하는 것"은 다르다.
이것은 AI에게도, 인간에게도 똑같이 적용되는 진실이다. 시험에서 끝까지 답을 고쳐 쓰다가 오히려 틀리는 학생처럼, AI도 과도한 사고가 오히려 해가 될 수 있다.
Vision-R1의 해법 — "처음에는 핵심만 짧게, 점차 복잡하게 확장" — 은 효율적 사고의 본질을 포착한다. 그리고 이 원리가 단 7B 파라미터의 모델로 OpenAI O1에 근접한 성능을 달성하게 만들었다.
2026년, AI의 다음 도전은 "더 크게 만드는 것"이 아니라 "더 잘 생각하게 만드는 것"이다. Vision-R1은 그 방향의 중요한 이정표로 남을 것이다.
참고 논문 및 자료