Vision-R1멀티모달 추론강화학습GRPOCoTDeepSeek-R1ICLR 2026

Vision-R1 특집: AI에게 '눈으로 보고 생각하는 법'을 가르치다 — 과잉사고의 함정부터 점진적 훈련까지

DeepSeek-R1이 텍스트에서 '생각하는 법'을 배웠다면, Vision-R1은 이미지를 보면서 생각하는 법을 배웠다. 하지만 그 과정에서 AI가 '쓸데없이 오래 생각하는' 과잉사고 문제에 빠졌다. ICLR 2026에서 발표된 이 논문이 제시한 점진적 사고 억제 훈련의 원리를, 일러스트와 인터랙티브 요소로 쉽고 깊게 풀어본다.

코어닷투데이2026-02-1241분

들어가며: "보는 것"과 "생각하는 것"은 다른 능력이다

한 가지 사고 실험을 해보자.

6살 아이에게 삼각형 그림을 보여주고 "이 삼각형의 넓이를 구해봐"라고 하면, 아이는 그림은 잘 보지만 풀이 방법을 모른다. 반대로, 수학 천재에게 눈을 가리고 같은 문제를 읽어주면, 풀이 방법은 알지만 그림의 정보를 활용하지 못한다.

2025년까지 AI의 상황도 이와 비슷했다.

대규모 언어 모델(LLM)은 텍스트로 된 수학 문제를 "생각하며" 풀 수 있게 되었다. DeepSeek-R1은 강화학습만으로 "잠깐, 다시 생각해보자..."라는 반성적 사고를 자발적으로 학습했다. 하지만 이 능력은 텍스트에만 적용되었다. 그래프, 도표, 기하학 그림 같은 시각 정보가 포함된 문제에서는 무력했다.

반대로, 비전-언어 모델(VLM)은 이미지를 "볼" 수 있었지만, 복잡한 추론은 하지 못했다. 이미지를 보고 "삼각형이 있네요, 빗변의 길이는 5입니다"까지는 말할 수 있지만, 여러 단계에 걸친 기하학적 추론은 어려웠다.

2025년 3월, 한 연구팀이 이 둘을 결합하려고 시도했다. "이미지를 보면서 깊이 생각하는 AI"를 만들려 한 것이다. 그리고 그 과정에서 예상치 못한 함정을 발견했다.

AI가 "생각하는 법"을 배웠더니, 쓸데없이 오래 생각하는 "과잉사고(overthinking)" 문제에 빠진 것이다.

이것이 Vision-R1 논문의 이야기다. ICLR 2026에 채택된 이 연구가 발견한 문제와 해법을 특집으로 깊이 풀어본다.

1. 역사적 맥락: AI의 "사고 능력"은 어떻게 발전해 왔나

1.1 직감형 AI에서 사고형 AI로

2023년까지 LLM의 답변 방식은 직감적이었다. 질문을 받으면 즉시 답변을 생성했다. "2+3=?"이라고 물으면 "5"라고 바로 답하는 식이다. 간단한 문제는 이것으로 충분하지만, 복잡한 추론이 필요한 문제에서는 오류가 잦았다.

연쇄 사고(Chain-of-Thought, CoT)라는 개념이 이 한계를 돌파했다. "단계별로 생각해봐"라는 프롬프트를 추가하면, 모델이 중간 과정을 거치면서 정확도가 크게 오르는 현상이 발견된 것이다.

직감형 (System 1)

"삼각형의 넓이는 12입니다"

중간 과정 없이 바로 답변

사고형 (System 2)

"밑변이 6이고 높이가 4이니까...
넓이 = ½ × 6 × 4 = 12"

단계별 추론 과정 포함

이후 이 사고 능력을 더 발전시키기 위한 여러 접근법이 등장했다:

시기	접근법	핵심 아이디어
2022	Chain-of-Thought	"단계별로 생각해봐"라고 프롬프트
2023	Tree-of-Thought	여러 사고 경로를 트리 형태로 탐색
2024	GRPO / DeepSeek-R1	RL로 사고 능력을 자발적으로 학습
2025	Vision-R1	이미지를 보면서 사고하는 능력을 RL로 학습

1.2 DeepSeek-R1의 혁명: "생각하는 법"을 스스로 배우다

2025년 1월, DeepSeek-R1은 강화학습(RL)만으로 AI가 반성적 사고를 자발적으로 학습할 수 있다는 것을 증명했다. 정답이면 보상 +1, 오답이면 -1이라는 단순한 규칙만 주었더니, 모델이 스스로 "잠깐, 다시 생각해보자", "이 접근법에 실수가 있는 것 같다"라는 사고 패턴을 발명한 것이다.

하지만 DeepSeek-R1에는 결정적 한계가 있었다: 텍스트만 처리할 수 있었다. 기하학 도형, 차트, 사진 같은 시각 정보가 포함된 문제는 아예 풀 수 없었다.

1.3 Vision-R1의 질문: "눈으로 보면서 생각할 수 있을까?"

Vision-R1 연구팀이 던진 핵심 질문:

"DeepSeek-R1처럼 강화학습으로 멀티모달 LLM에도 추론 능력을 불어넣을 수 있는가?"

답을 찾기 위한 여정에서 세 가지 중요한 발견을 했다:

RL만으로는 안 된다 — 고품질 사고 데이터로 먼저 "워밍업"이 필요
기존 사고 데이터는 품질이 낮다 — "가짜 CoT"를 새로운 방법으로 극복해야 한다
생각하는 법을 배운 AI는 "과잉사고"에 빠진다 — 새로운 훈련 기법이 필요

2. 첫 번째 시도와 실패: RL만으로는 안 된다

2.1 Vision-R1-Zero 실험

연구팀은 먼저 DeepSeek-R1과 동일한 접근을 시도했다. 기존 VLM(Qwen2.5-VL-7B)에 직접 GRPO(Group Relative Policy Optimization)를 적용해서, 수학 문제 1만 개로 강화학습을 시킨 것이다.

보상은 두 가지:

형식 보상: <think>...</think> 태그 안에 사고 과정을 넣었는가?
결과 보상: 정답을 맞혔는가?

결과는 실패였다.

기대한 결과

길고 복잡한 추론 학습

실제 결과 (Vision-R1-Zero)

짧고 단순한 추론에 머뭄

모델은 길고 복잡한 연쇄 사고를 생성하지 못했다. 아무리 훈련을 늘려도 성능이 정체되었다. 평균 출력 길이는 1,285 토큰에 불과했고, 정확도는 50.7%였다.

왜 텍스트 전용 DeepSeek-R1에서는 RL이 작동했는데, 멀티모달에서는 안 되는 걸까?

2.2 원인: 멀티모달의 복잡성

텍스트 추론은 "정보 입력 → 사고 → 답변"이라는 직선적 구조다. 하지만 멀티모달 추론은 이중 과제다:

시각 정보 해석: 그래프에서 숫자를 읽고, 도형의 관계를 파악하고, 차트의 추세를 이해해야 한다
논리적 추론: 해석한 정보를 바탕으로 수학적/논리적 단계를 밟아야 한다

RL만으로는 이 두 능력을 동시에 학습하기 어렵다. 모델이 "이미지에서 정보를 추출하는 법"과 "추출한 정보로 추론하는 법"을 처음부터 동시에 배워야 하기 때문이다. 먼저 좋은 사고의 "본보기"를 보여주고(cold-start), 그 다음 RL로 강화하는 2단계 접근이 필요했다.

3. 두 번째 혁신: 모달리티 브릿징 — 텍스트 AI에게 "그림 설명"을 전달하다

3.1 문제: DeepSeek-R1은 눈이 없다

고품질 사고 데이터가 필요한데, 최고의 추론 AI인 DeepSeek-R1은 이미지를 볼 수 없다. 그렇다고 GPT-4o 같은 비공개 VLM에 의존하면 "진짜 연구"가 아니다.

연구팀은 기발한 해법을 생각해냈다: "그림을 보는 AI에게 설명을 쓰게 하고, 그 설명을 생각하는 AI에게 넘기자."

이것이 모달리티 브릿징(Modality Bridging)이다.

3.2 4단계 파이프라인

Step 1. 가짜 CoT 생성 기존 VLM에게 이미지+질문+정답을 주고 풀이 과정을 쓰게 함. 하지만 이것은 "가짜 CoT" — 반성이나 자기 교정이 없는 기계적 풀이.

Step 2. 풍부한 시각 설명 생성 이미지 + 질문 + 가짜 CoT를 다시 VLM에게 줘서, 문제 풀이에 필요한 모든 시각 정보를 텍스트로 상세히 설명하게 함.

Step 3. DeepSeek-R1에게 전달 이미지 없이 "시각 설명 + 질문"만 DeepSeek-R1에게 전달. DeepSeek-R1이 자연스러운 사고 과정(의문, 반성, 자기 교정)을 포함한 고품질 CoT를 생성.

Step 4. 필터링 + 재결합 규칙 기반으로 논리적 일관성 확인, 정제 후 원본 이미지와 다시 결합 → 최종 훈련 데이터.

핵심: "그림을 보는 AI"가 통역사 역할을 하고, "생각하는 AI"가 고품질 추론을 담당한다. 이 둘을 잇는 다리가 "텍스트로 된 시각 설명"이다.

3.3 결과: Vision-R1-cold 데이터셋

이 파이프라인으로 20만 개의 멀티모달 CoT 데이터를 생성했다. 수학, 과학, 의학, 차트 이해 등 37가지 소스에서 수집한 이미지-질문 쌍을 사용했다.

기존 CoT 데이터셋과의 품질 차이는 자기 반성 지표(self-reflective indicators)를 세어보면 극명하게 드러난다:

"Wait" (잠깐) 등장 횟수

Vision-R1: 585,719회

"Wait" — LLaVA-CoT

2,300회

"Alternatively" (대안적으로)

Vision-R1: 188,187회

"Alternatively" — LLaVA-CoT

251회

"Hmm" (음...) 등장 횟수

Vision-R1: 75,853회

"Hmm" — LLaVA-CoT

1회

"Hmm"이 1회 vs 75,853회. 이것이 "가짜 CoT"와 "진짜 CoT"의 차이다. DeepSeek-R1이 생성한 CoT에는 사람의 자연스러운 사고 과정 — 의문, 망설임, 대안 탐색, 실수 인정 — 이 풍부하게 담겨 있다.

4. 과잉사고: 예상치 못한 함정

과잉사고 vs 효율적 사고를 보여주는 일러스트

4.1 "잘 가르쳤더니 너무 많이 생각한다"

Vision-R1-cold 데이터셋으로 모델을 SFT(지도 학습)하면, 모델(Vision-R1-CI)은 복잡한 추론 형식을 학습한다. "잠깐, 다시 생각해보자..." 같은 반성적 사고 패턴을 구사하게 된다.

하지만 심각한 문제가 발생했다.

모델이 쓸데없이 길게 생각하기 시작한 것이다. 평균 출력 길이가 3,566 토큰으로 증가했는데, 정작 정확도는 44.5%로 — 워밍업 전의 50.7%보다 오히려 떨어졌다.

Vision-R1-Zero (RL만)

1,285 토큰 / 50.7%

Vision-R1-CI (SFT만)

3,566 토큰 / 44.5% ↓

Vision-R1-Long (SFT+RL, 16K)

3,107 토큰 / 47.7%

Vision-R1 (SFT+RL+PTST)

2,057 토큰 / 55.4%

4.2 과잉사고의 메커니즘

왜 이런 일이 일어나는 걸까? 연구팀이 분석한 결과:

올바른 추론은 짧은 체인에 집중되어 있었다. 모델이 3,000 토큰을 생성해도, 정답에 도달하는 올바른 추론 경로는 처음 1,000~1,500 토큰 안에 있는 경우가 대부분이었다. 나머지 1,500 토큰은 이미 맞는 답을 의심하고, 불필요한 대안을 탐색하고, 때로는 올바른 답을 뒤집어버리는 쓸데없는 사고였다.

비유하자면 이런 것이다:

과잉사고의 예시

올바른 추론 (처음 1,500 토큰)

"삼각형의 밑변이 6이고 높이가 4이니까...
넓이 = ½ × 6 × 4 = 12. 여기까지 맞음!"

과잉사고 (추가 1,500 토큰)

"잠깐, 정말 밑변이 6이 맞나? 다시 확인해보자...
음, 혹시 높이가 아니라 빗변일 수도 있잖아?
대안적으로 생각하면... 피타고라스 정리를 적용하면...
아, 사실 넓이는 15가 아닐까?
→ 올바른 답(12)을 틀린 답(15)으로 뒤집어버림"

시험을 볼 때 "이게 맞나?" 하고 지우개로 지우다가 오히려 틀리는 경험, 누구나 해봤을 것이다. AI도 같은 함정에 빠진 것이다.

4.3 직접 RL을 적용하면?

과잉사고하는 모델(Vision-R1-CI)에 바로 RL을 적용하면 어떻게 될까? 16K 토큰까지 허용하고 GRPO를 적용한 결과(Vision-R1-Long):

출력 길이: 3,566 → 3,107 토큰 (약간 줄어듦)
정확도: 44.5% → 47.7% (약간 올라감)

개선은 있지만 불충분하다. 모델은 여전히 길게 생각하고, 정확도는 RL 이전 기본 모델(50.7%)에도 못 미친다. RL이 과잉사고 습관을 교정하기에는 한계가 있었다.

5. 해법: 점진적 사고 억제 훈련 (PTST)

점진적 훈련을 보여주는 일러스트

5.1 핵심 아이디어: "처음에는 짧게, 점점 길게"

PTST(Progressive Thinking Suppression Training)의 발상은 교육학에서 영감을 받은 것 같다:

처음에는 답을 짧게 쓰도록 제한해서 "핵심만 말하는 습관"을 기르고, 이후 점차 제한을 풀어 복잡한 문제도 풀 수 있게 한다.

이것은 마치 글쓰기를 배울 때, 처음에는 "한 문장으로 요약해봐"부터 시작하고, 나중에 "두 문단으로 써봐", "에세이를 써봐"로 점진적으로 늘리는 것과 같다.

5.2 2단계 훈련 스케줄

Stage 1
길이 제한: 4K 토큰
샘플: 16개/질문
100 스텝

→

Stage 2
길이 제한: 8K 토큰
샘플: 8개/질문
100 스텝

→

Stage 3 (선택적)
길이 제한: 16K 토큰
효과 미미

Stage 1 (짧고 정확하게):

최대 4,096 토큰까지만 생성 가능
질문당 16개의 답변을 생성해서 비교 (GRPO)
목표: 과잉사고를 억제하고 핵심 추론에 집중
"한 문장으로 답해봐" 단계

Stage 2 (점진적으로 확장):

최대 8,192 토큰까지 허용
질문당 8개의 답변을 생성
목표: 더 복잡한 문제에도 대응할 수 있도록 확장
"두 문단으로 써봐" 단계

Stage 3 (16K, 사용 안 함):

16K까지 허용하면 과잉사고가 재발
정확도가 오히려 떨어짐 → 2단계로 충분

5.3 보상 설계: 양자택일

PTST에서 보상은 매우 엄격하다:

보상 = 1 (성공)

형식이 올바르고 AND 정답이 맞아야만 보상

<think>...</think> 형식 + 정답 일치

보상 = 0 (실패)

형식이 틀리거나 OR 정답이 틀리면 무보상

부분 점수 없음 — 전부 아니면 전무

기존 Vision-R1-Zero에서는 형식 보상과 결과 보상을 분리했지만(비율 1:1), PTST에서는 결합했다. "형식도 맞고 답도 맞아야 보상"이라는 엄격한 기준이 모델을 더 정확한 추론으로 이끈다.

5.4 왜 이 스케줄이 최적인가

논문은 다양한 스케줄 조합을 실험했다:

Stage 1	Stage 2	평균 정확도
4K×16	8K×8	55.4% (최적)
4K×16	4K×16	54.3%
4K×16	8K×16	55.3%
16K×4	16K×4	47.7%
16K×16	16K×16	47.9%

처음부터 16K를 허용하면 47.7~47.9%로 최악. 4K에서 시작해 8K로 넓히는 것이 최적이다. 3단계(4K→6K→8K)를 추가해도 55.1%로 거의 차이가 없어, 2단계면 충분하다는 결론이다.

"샘플 수 × 길이" 곱을 일정하게 유지한 것도 주목할 만하다. Stage 1에서 16개 × 4K = 64K, Stage 2에서 8개 × 8K = 64K. 이렇게 하면 스테이지 간 연산 비용이 일정하면서도, 모델이 "짧은 다양한 답변 → 긴 정교한 답변"으로 자연스럽게 전환한다.

6. 실험 결과: OpenAI O1에 0.4% 차이까지 접근

6.1 수학 추론 벤치마크

Vision-R1의 핵심 성과는 수학 추론에서 나타난다:

Vision-R1-7B

MathVista 73.5%

OpenAI O1

MathVista 73.9%

Qwen2.5-VL-7B (기본)

MathVista 66.9%

GPT-4o

MathVista 63.8%

Claude 3.5 Sonnet

MathVista 67.7%

Vision-R1-7B가 OpenAI O1과 0.4% 차이. 7B(70억) 파라미터 모델이 최정상급 추론 AI에 근접한 것이다.

더 큰 모델에서의 결과는 더 인상적이다:

모델	MathVista	MathVerse	MM-Math
Vision-R1-7B	73.5%	79.0%	83.2%
Vision-R1-32B	85.8%	82.6%	88.0%
Vision-R1-72B	88.3%	86.8%	89.4%

6.2 세부 과제별 성능 폭발

특히 기하학과 대수학에서의 개선이 압도적이다:

기하학(GEO): Vision-R1

80.3% (+33.6)

기하학(GEO): 기본 모델

46.7%

대수학(ALG): Vision-R1

79.0% (+44.9)

대수학(ALG): 기본 모델

34.1%

대수학에서 34.1% → 79.0%로 44.9%p 향상. 기하학에서 46.7% → 80.3%로 33.6%p 향상. 이 수치는 "약간의 개선"이 아니라 근본적인 능력 변화를 나타낸다.

6.3 다른 아키텍처에서도 작동하는가?

Vision-R1-cold 데이터셋의 범용성을 검증하기 위해, 완전히 다른 VLM(Llama-3.2-11B-Vision)에도 적용해 봤다:

모델	MathVista	MathVerse	MM-Math
Llama-3.2-11B 기본	48.6%	8.4%	4.1%
LLaVA-CoT-11B	54.8%	20.3%	16.5%
Vision-R1-cold로 훈련	62.7%	27.1%	26.1%

기본 모델(48.6%)에서 62.7%로 14.1%p 향상. LLaVA-CoT(54.8%)도 크게 능가한다. 이것은 Vision-R1-cold 데이터셋의 품질이 특정 모델에 종속되지 않고 범용적으로 유효하다는 증거다.

7. 창발적 사고 패턴: AI의 "아하 순간"

7.1 훈련 전후의 사고 과정 비교

Vision-R1 훈련 이후, 모델의 사고 과정에서 인간과 유사한 자연스러운 추론 패턴이 관찰된다:

관찰 "이 그래프를 보면 x축이 시간이고 y축이 온도인 것 같다. 2시간 시점에서 온도가 급격히 올라가고 있네."

의문 제기 "잠깐, 그런데 이 꺾은선이 정말 온도를 나타내는 건 맞나? 범례를 다시 확인해봐야겠다..."

대안 탐색 "음, 만약 이것이 온도가 아니라 압력이라면 해석이 달라질 텐데. 단위를 보면... 아, °C라고 되어 있으니 온도가 맞다."

검증 "좋아, 그러면 2시간 시점의 온도 변화율을 계산해보면... 기울기가 약 15°C/h이다."

최종 결론 "따라서 답은 15°C/h. 단위도 맞고, 그래프와 일치한다. 이것으로 확정."

핵심은 이 모든 패턴 — 의문 제기("잠깐"), 대안 탐색("만약...이라면"), 자기 검증("단위를 보면") — 이 명시적으로 프로그래밍된 것이 아니라, 강화학습 과정에서 자발적으로 출현했다는 것이다.

8. Cold-Start의 필수성: 없으면 안 되는 이유

8.1 각 조합의 성능 비교

RL만 (Vision-R1-Zero)

50.7%

추론 능력 학습 실패

PTST만 (Cold-Start 없이)

51.8%

기본 추론 패턴 부재

SFT만 (Vision-R1-CI)

44.5%

과잉사고로 오히려 악화

Cold-Start + PTST (Vision-R1)

55.4%

최적 조합

Cold-Start(SFT)만 하면 과잉사고 때문에 44.5%로 악화되고, PTST만 하면 기본 추론 패턴이 없어서 51.8%에 그친다. 둘 다 필요하다. Cold-Start로 "생각하는 형식"을 배우고, PTST로 "효율적으로 생각하는 법"을 배우는 것이다.

특히 MM-Math에서의 차이가 극적이다: RL만(28.8%) vs Cold-Start+PTST(40.2%). 복잡한 수학 문제일수록 고품질 사고 데이터의 사전 학습이 결정적이다.

9. 2026년 시점에서 Vision-R1의 의미

9.1 멀티모달 추론의 새로운 기준

Vision-R1은 "멀티모달 AI가 깊이 생각할 수 있다"는 것을 최초로 체계적으로 증명했다. 2026년 현재, 이 논문이 제시한 세 가지 개념이 후속 연구의 기초가 되고 있다:

모달리티 브릿징: "보는 AI"와 "생각하는 AI"를 텍스트로 잇는 기법은, 비디오-텍스트, 3D-텍스트 등 다른 모달리티 조합에도 적용 확대 중
과잉사고 문제 인식: "AI가 많이 생각한다고 좋은 것이 아니다"라는 통찰이 RL 연구 전반에 영향
PTST: 점진적 길이 제약이라는 단순한 아이디어가 다양한 RL 시나리오에서 효과적임이 검증됨

9.2 교육적 시사점

Vision-R1의 과잉사고 문제와 해결법은 인간 교육에서도 익숙한 현상이다.

학생에게 "자세하게 풀이를 써라"라고 가르치면, 일부 학생은 불필요한 풀이를 장황하게 써서 오히려 틀리는 경우가 있다. 좋은 교사는 "핵심만 먼저 써보고, 그 다음 자세하게 확장해"라고 가르친다. PTST는 정확히 이 교수법을 AI에게 적용한 것이다.

9.3 효율성의 가치

Vision-R1-7B(7B 파라미터)가 OpenAI O1과 0.4% 차이라는 것은, 적절한 훈련 방법론이 모델 크기를 압도할 수 있음을 보여준다. 이것은 자원이 제한된 연구팀이나 기업에게 큰 희망이다 — 거대 모델을 만들 수 없어도, 똑똑한 훈련 전략으로 경쟁할 수 있다.

10. 핵심 개념 최종 정리

Vision-R1의 핵심 발견

멀티모달 LLM에 RL만 적용하면 실패한다. 고품질 CoT로 워밍업(cold-start)한 뒤, 점진적으로 사고 길이를 확장하는 PTST가 필요하다.

모달리티 브릿징

"보는 AI"가 이미지를 텍스트로 설명 → "생각하는 AI"(DeepSeek-R1)가 고품질 CoT 생성. 비공개 VLM 없이 20만 데이터 확보.

과잉사고 문제

사고하는 법을 배운 AI가 쓸데없이 길게 생각해 정답을 뒤집는 현상. 출력 길이가 길수록 정확도가 오히려 하락.

PTST 기법

Stage 1(4K, 16샘플) → Stage 2(8K, 8샘플). 처음엔 짧게 쓰도록 제약, 점차 확장. "핵심 먼저, 확장은 나중에."

성과

7B 모델로 OpenAI O1에 0.4% 차이. 기하학 +33.6%p, 대수학 +44.9%p 향상. ICLR 2026 채택.

마무리: "똑똑하게 생각한다"는 것의 의미

Vision-R1이 우리에게 알려주는 것은 단순한 기술적 사실을 넘어선다:

"많이 생각하는 것"과 "잘 생각하는 것"은 다르다.

이것은 AI에게도, 인간에게도 똑같이 적용되는 진실이다. 시험에서 끝까지 답을 고쳐 쓰다가 오히려 틀리는 학생처럼, AI도 과도한 사고가 오히려 해가 될 수 있다.

Vision-R1의 해법 — "처음에는 핵심만 짧게, 점차 복잡하게 확장" — 은 효율적 사고의 본질을 포착한다. 그리고 이 원리가 단 7B 파라미터의 모델로 OpenAI O1에 근접한 성능을 달성하게 만들었다.

2026년, AI의 다음 도전은 "더 크게 만드는 것"이 아니라 "더 잘 생각하게 만드는 것"이다. Vision-R1은 그 방향의 중요한 이정표로 남을 것이다.

참고 논문 및 자료

Huang et al., "Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models," arXiv:2503.06749, ICLR 2026.
DeepSeek-AI, "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning," January 2025.
Shao et al., "DeepSeekMath: Pushing the Limits of Mathematical Reasoning" (GRPO), 2024.
Wei et al., "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models," NeurIPS 2022.
Xu et al., "LLaVA-CoT: Let Vision Language Models Reason Step-by-Step," 2024.
Vision-R1 코드: github.com/Osilly/Vision-R1

기술2026.02.09