coredot.today
AI가 '모르는 것을 아는' 법을 배우다 — Process Reward Model의 불확실성 캘리브레이션
블로그로 돌아가기
PRM불확실성캘리브레이션추론테스트 타임 스케일링분위수 회귀NeurIPS 2025

AI가 '모르는 것을 아는' 법을 배우다 — Process Reward Model의 불확실성 캘리브레이션

수학 문제를 풀 때 AI는 '이 풀이가 맞을 확률'을 심각하게 과대평가한다. MIT 연구팀은 분위수 회귀로 이 과신을 교정하고, 문제 난이도에 따라 연산량을 자동 조절하는 프레임워크를 제안했다. NeurIPS 2025 논문을 쉽게 풀어본다.

코어닷투데이2026-03-2533

들어가며: "자신 있습니다" — 근거 없는 확신의 위험

시험장에서 이런 학생을 본 적이 있을 것이다. 풀이를 쓱쓱 적고 "다 맞았다"며 확신에 찬 표정으로 제출하지만, 채점 결과는 참담하다. 반면 어떤 학생은 "이 부분이 좀 불확실해요"라고 솔직하게 말하고, 불확실한 문제에 더 시간을 투자한다. 당연히 후자가 전략적으로 현명하다.

AI도 마찬가지다. 2026년 현재, OpenAI o3, DeepSeek-R1, Qwen-3 같은 추론 모델(reasoning model)들은 수학 문제를 단계별로 풀어가며 놀라운 성능을 보여준다. 그런데 이 모델들의 풀이 과정을 평가하는 Process Reward Model(PRM)에 심각한 문제가 있다. "이 풀이가 정답으로 이어질 확률"을 지나치게 낙관적으로 예측하는 것이다.

MIT의 Young-Jin Park 등이 NeurIPS 2025에서 발표한 논문 "Know What You Don't Know: Uncertainty Calibration of Process Reward Models"는 이 문제를 정면으로 다룬다. 핵심 질문은 이렇다: AI가 "내가 모르는 것을 안다"고 말할 수 있게 만들 수 있는가?

이 글에서는 왜 이런 문제가 생겼는지(제1장), PRM이 무엇이고 왜 과신하는지(제2장), 논문의 해결책인 분위수 회귀 캘리브레이션(제3장), 이를 활용한 인스턴스 적응형 스케일링(제4장), 실험 결과(제5장), 그리고 2026년 현재 이 기술의 의미(제6장)를 풀어본다.


제1장: 왜 AI의 "자기 평가"가 중요해졌는가 — 추론 시대의 도래

다음 토큰 예측에서 "생각하는 AI"로

2022년까지 LLM의 패러다임은 단순했다. 주어진 텍스트 다음에 올 토큰을 예측하는 것. GPT-3가 놀라운 능력을 보여줬지만, 수학 올림피아드나 복잡한 코딩 문제에서는 한계가 명확했다. 패턴 매칭으로는 진짜 추론을 할 수 없기 때문이다.

전환점은 2022년 Chain-of-Thought(CoT) 프롬프팅이었다. "단계별로 생각해보자"라는 한 줄을 추가하는 것만으로 수학 문제 정확도가 3배 뛰었다. 그 뒤 2024년 9월 OpenAI가 o1을 발표하면서 "추론 모델" 시대가 열렸고, 2025년 1월 DeepSeek-R1이 오픈소스로 비슷한 성능을 달성하면서 추론 AI가 보편화되기 시작했다.

테스트 타임 스케일링: 추론 시간에 더 많이 "생각"하기

이 흐름에서 핵심 패러다임이 테스트 타임 스케일링(inference-time scaling)이다. 모델을 더 크게 만드는 대신, 추론 시간에 더 많은 연산을 투입해서 성능을 높이는 접근법이다.

비유하면 이렇다. 시험 시간이 1시간인 학생과 3시간인 학생의 성적이 같을 리 없다. AI도 마찬가지로, 하나의 문제에 대해 여러 풀이를 생성하고, 그중 가장 좋은 것을 고르면 정확도가 크게 올라간다.

대표적인 방법 두 가지가 있다.

Best-of-N(BoN): 같은 문제에 대해 N개의 풀이를 생성하고, 가장 점수가 높은 것을 선택한다. N=64이면 64개를 만들어서 1등을 뽑는 것이다.

빔 서치(Beam Search): 풀이를 한 단계씩 확장하면서, 매 단계마다 가장 유망한 K개 경로만 살려서 계속 탐색한다. 한 수 한 수 두면서 좋은 수만 남기는 바둑과 비슷하다.

그런데 여기서 결정적 질문이 생긴다: N개의 풀이 중 "가장 좋은 것"은 누가 판단하는가?

Reward Model: AI의 풀이를 채점하는 또 다른 AI

답은 보상 모델(Reward Model)이다. AI가 만든 풀이를 평가하는 별도의 AI 모델이다.

보상 모델에는 두 종류가 있다:

  • Outcome Reward Model(ORM): 최종 답만 보고 맞았는지 평가한다. "정답은 42인데, 너의 답은 42이니 맞았다."
  • Process Reward Model(PRM): 풀이의 각 단계를 평가한다. "1단계 식 세우기: 좋음. 2단계 계산: 맞음. 3단계 논리 비약: 문제 있음."

PRM이 훨씬 강력하다. 최종 답이 맞아도 풀이 과정에 논리적 오류가 있으면 잡아낼 수 있고, 중간 단계에서 "이 방향이 유망하다/아니다"를 판단하여 빔 서치를 안내할 수 있기 때문이다.

2024년부터 Qwen-PRM, Math-Shepherd, ReasonEval 등 다양한 오픈소스 PRM이 등장하면서, 추론 모델의 핵심 인프라로 자리 잡았다.

하지만 연구자들이 간과한 것이 있었다.


제2장: PRM의 치명적 결함 — 과신(Overconfidence)

PRM의 점수는 "확률"인가?

PRM이 어떤 풀이의 중간 단계에 0.85점을 줬다고 하자. 이것은 "이 단계까지의 풀이를 계속 이어가면 정답에 도달할 확률이 85%"라고 해석할 수 있을까?

많은 연구자가 그렇게 가정했다. PRM 점수를 정규화하면 0~1 사이의 값이 되고, 이를 성공 확률(success probability)로 해석한 것이다. 논문은 이 해석에 문제가 있음을 실험으로 보여준다.

실험: PRM은 얼마나 과신하는가?

연구팀은 최고 성능의 오픈소스 PRM인 Qwen2.5-Math-PRM-7B를 가져와서, 실제 성공 확률과 PRM 예측 점수의 차이를 측정했다.

방법은 이랬다. 특정 문제의 특정 중간 단계에서, 실제로 여러 LLM에게 나머지 풀이를 완성하게 한 뒤 정답률을 구했다. 이것이 진짜 성공 확률이다. 그리고 PRM이 예측한 점수와 비교했다.

결과는 충격적이었다.

+0.28 평균 과대평가 Llama-1B + MATH500
+0.51 평균 과대평가 R1-Qwen-7B + AIME
85%↑ 과대평가 비율 약한 모델일수록 심각
6배 OOD에서 악화 AIME vs MATH 비교

PRM은 거의 항상 성공 확률을 과대평가했다. 특히 두 가지 상황에서 심각했다:

  1. 약한 모델을 사용할 때: PRM이 72B 모델의 데이터로 학습되었는데, 1B 모델의 풀이를 평가하면 성공 확률을 훨씬 높게 예측했다. 72B 모델이 이어갈 수 있는 풀이를 1B 모델은 이어갈 수 없는데, PRM은 그 차이를 모른다.

  2. 어려운 문제(OOD)에서: MATH500(비교적 쉬운 벤치마크)에서는 그나마 나았지만, AIME(수학 올림피아드 수준)에서는 과대평가가 극심했다. 거의 풀 수 없는 문제에 대해서도 PRM은 "이 풀이 괜찮아 보이는데?"라고 평가한 것이다.

왜 이런 일이 일어나는가?

근본 원인은 정책 의존성(policy dependence) 때문이다. PRM은 특정 모델(예: Qwen-Math-72B-Instruct)이 생성한 풀이 데이터로 학습된다. 학습 과정에서 PRM이 보는 것은 이 특정 모델의 풀이 패턴이다.

비유하면 이렇다. 수학 올림피아드 금메달리스트의 풀이만 보고 채점 기준을 만든 채점관이 있다. 이 채점관이 중학생의 풀이를 보면 어떻게 될까? "아, 이 첫 단계는 금메달리스트도 비슷하게 시작하던데, 잘 풀고 있네!"라고 평가할 것이다. 하지만 중학생이 이 풀이를 끝까지 완성할 수 있을지는 전혀 다른 문제다.

수학적으로 말하면, 언어 모델의 토큰 생성 확률 πθ(xt+1:Tx0:t)\pi_\theta(x_{t+1:T} | x_{0:t})는 모델 파라미터 θ\theta에 의존한다. PRM은 학습에 사용된 정책 모델에만 캘리브레이션되어 있고, 다른 모델과 사용하면 분포 불일치(distributional mismatch)가 발생한다.

과신이 왜 문제인가?

PRM을 단순히 "순위 매기기"에만 쓴다면 과신은 큰 문제가 아니다. 상대적 순서만 맞으면 되니까. "A 풀이가 B 풀이보다 좋다"는 판단은 점수의 절대값이 아니라 대소 관계만 필요하다.

하지만 PRM의 절대적 확률 값이 정확해야 하는 세 가지 중요한 용도가 있다:

캘리브레이션된 PRM
해석 가능한 신뢰도
모니터링
포기 판단
"모르겠습니다"
적응형 연산
예산 배분
  1. 해석 가능한 불확실성 추정: 사용자에게 "이 답의 신뢰도는 85%입니다"라고 말하려면 그 85%가 실제로 의미 있어야 한다.
  2. 포기 판단(I don't know): 성공 확률이 너무 낮으면 "모르겠습니다"라고 말하거나 더 강력한 모델로 라우팅해야 한다. 과신하면 이 판단이 불가능하다.
  3. 적응형 연산 예산 배분: 쉬운 문제에는 적은 연산, 어려운 문제에는 많은 연산을 투입하려면 정확한 난이도 추정이 필요하다. 이것이 이 논문의 핵심 응용이다.

제3장: 해결책 — 분위수 회귀로 PRM을 교정하다

기존 캘리브레이션 방법이 안 되는 이유

AI 모델의 과신을 교정하는 기존 기법들이 있다. 대표적으로:

  • Temperature Scaling: 모델의 출력 로짓을 온도 파라미터로 나눈다. 과신하면 온도를 높여서 확률을 평탄하게 만든다.
  • Isotonic Regression: 단조 함수로 예측 확률을 실제 확률에 매핑한다.
  • Histogram Binning: 예측 확률을 구간별로 나누고, 각 구간의 실제 정답률로 보정한다.

이 방법들의 공통 한계: 모든 예측을 일괄적으로 보정한다. "전체적으로 10% 과신하니까 전부 10% 깎자"는 식이다. 하지만 PRM의 과신은 균일하지 않다. 쉬운 문제에서는 거의 정확하고, 어려운 문제에서만 심각하게 과대평가한다. 일률적 보정은 쉬운 문제의 점수를 불필요하게 깎고, 어려운 문제는 여전히 부족하게 보정한다.

실험 결과가 이를 확인한다. MATH500(비교적 쉬운 문제)에서는 기존 기법도 어느 정도 작동하지만, AIME(어려운 문제)에서는 거의 효과가 없었다.

핵심 아이디어: 조건부 평균 대신 "보수적 하한"을 예측하자

논문의 핵심 통찰은 이렇다.

일반적인 회귀 모델은 조건부 평균(conditional mean)을 예측한다. 즉, "이 문제의 이 단계에서 성공 확률의 평균은 60%"라고 추정한다. 문제는, 평균은 정의상 절반의 경우에서 실제값보다 높다. 즉 50%의 확률로 과대평가한다.

연산 예산을 배분할 때 과대평가는 치명적이다. 성공 확률을 높게 추정하면 "적은 풀이만 생성하면 되겠다"고 판단하고, 결과적으로 정답을 놓친다.

해결책: 평균 대신 하위 분위수(lower quantile)를 예측한다.** 예를 들어 10번째 백분위수를 예측하면, 90%의 경우에서 실제 성공 확률이 예측값보다 높다. 이는 **보수적 하한(conservative lower bound)으로, 과대평가 위험을 크게 줄인다.

3단계 데이터 수집 파이프라인

캘리브레이션을 위한 "정답 레이블" 수집 과정이다:

PRM 캘리브레이션 데이터 수집 파이프라인
Stage 1 문제당 8개 풀이 궤적 생성 (타겟 LLM으로)
Stage 2 각 풀이의 모든 중간 단계에서 8개씩 후속 궤적 생성 (몬테카를로 롤아웃)
Stage 3 후속 궤적의 정답률 계산 → 경험적 성공 확률 (ground truth label)

Stage 1: MATH 학습 데이터에서 500문제를 샘플링하고, 캘리브레이션 대상 LLM(예: Llama-8B)으로 문제당 8개 풀이를 생성한다.

Stage 2: 각 풀이의 모든 중간 단계에서 "여기서부터 다시 풀어봐"라고 8개씩 추가 풀이를 생성한다. 이것이 몬테카를로 롤아웃이다. 물리학에서 수천 번 시뮬레이션을 돌려서 확률을 추정하는 것과 같은 원리다.

Stage 3: 각 중간 단계에서 8개 후속 풀이 중 정답 비율을 구한다. 이것이 경험적 성공 확률 p~\tilde{p}로, 캘리브레이션의 "정답 레이블" 역할을 한다.

분위수 회귀(Quantile Regression)로 PRM 파인튜닝

수집한 데이터로 PRM을 어떻게 보정할까?

PRM의 마지막 예측 헤드(prediction head)를 교체한다. 기존에는 하나의 점수를 출력했다면, 새로운 헤드는 여러 분위수 수준의 점수를 동시에 출력한다. 예를 들어 10%, 50%, 90% 분위수를 한 번에 예측한다.

학습에 사용하는 손실 함수는 가중 분위수 손실(weighted Quantile Loss)이다:

wQL(r^,p~)=1Nqn=1Nq[βnmax(0,p~r^(βn))+(1βn)max(0,r^(βn)p~)]\text{wQL}(\hat{r}, \tilde{p}) = \frac{1}{N_q} \sum_{n=1}^{N_q} \left[ \beta_n \cdot \max(0, \tilde{p} - \hat{r}^{(\beta_n)}) + (1-\beta_n) \cdot \max(0, \hat{r}^{(\beta_n)} - \tilde{p}) \right]

이 손실 함수의 핵심은 비대칭 벌점이다:

  • 10% 분위수 예측에서는 과대평가(예측 > 실제)에 90%의 가중치를 주고, 과소평가에는 10%만 준다. 즉, "실제보다 높게 예측하면 크게 벌을 받는다."
  • 90% 분위수 예측에서는 반대다. 과소평가에 큰 벌을 준다.

이렇게 학습하면 10% 분위수 예측은 자연스럽게 보수적 하한이 된다. 실제 성공 확률의 90%가 이 예측값보다 높을 것이므로, 이 값을 기반으로 의사결정을 하면 안전하다.

중요한 점: PRM의 본체(backbone)는 고정하고, 예측 헤드만 파인튜닝한다. 효율적이면서도 원래 PRM의 표현 능력을 보존한다.


제4장: 인스턴스 적응형 스케일링(IAS) — 문제 난이도에 따라 연산을 조절하다

인간은 이미 하고 있다

수학 시험을 볼 때 모든 문제에 같은 시간을 쓰는 사람은 없다. 쉬운 문제는 빠르게 풀고, 어려운 문제에 시간을 집중한다. 확실한 문제는 한 번만 풀어보고, 불확실한 문제는 여러 방법으로 검산한다.

기존 테스트 타임 스케일링은 이런 적응을 하지 않았다. Best-of-64이면 모든 문제에 64개 풀이를 생성한다. "1+1은?"에도 64개, AIME 문제에도 64개. 전자는 63개가 낭비이고, 후자는 64개로도 부족할 수 있다.

핵심 수학: 몇 개 풀이가 필요한가?

논문은 깔끔한 수학적 공식을 유도한다.

성공 확률이 pp인 문제에서, 최소 1개의 정답을 얻을 확률이 CC 이상이 되려면 필요한 풀이 수 NN은:

NIAS(p,C)=log(1C)log(1p)N_{\text{IAS}}(p, C) = \frac{\log(1 - C)}{\log(1 - p)}

이것은 기하 분포의 성질에서 직접 유도된다. NN개의 독립 시행에서 최소 1번 성공할 확률이 1(1p)N1 - (1-p)^N이므로, 이를 CC 이상으로 만드는 최소 NN을 구한 것이다.

직관적으로 이해해보자. 목표 신뢰도 C=0.99C = 0.99(99% 확률로 최소 1개 정답)로 설정하면:

성공 확률별 필요 풀이 수 (C = 99%)
p = 80%
3개 쉬움
p = 50%
7개 보통
p = 20%
21개 어려움
p = 5%
90개 매우 어려움
p = 1%
459개 극한

성공 확률 80%인 쉬운 문제는 3개면 충분하지만, 1%인 극한 문제는 459개가 필요하다. 모든 문제에 64개를 할당하는 것은 명백한 낭비이자 부족이다.

IAS를 Best-of-N에 적용하기: BoN + IAS

BoN + IAS 작동 과정
1. 추정 캘리브레이션된 PRM으로 문제 성공 확률 $\hat{r}^{(\beta)}$ 추정 (10% 분위수 = 보수적 하한)
2. 계산 $N_{\text{IAS}} = \min\left(\lceil \log(1-C) / \log(1-\hat{r}^{(\beta)}) \rceil, \; N_{\max}\right)$ 으로 필요 샘플 수 결정
3. 실행 $N_{\text{IAS}}$개의 풀이만 생성하고, 원래 PRM으로 순위 매겨서 최고 풀이 선택

핵심 포인트: 캘리브레이션된 PRM은 "몇 개 샘플이 필요한가"를 결정하고, 원래 PRM은 "어떤 풀이가 가장 좋은가"를 결정한다. 두 역할을 분리한 것이 영리하다.

IAS를 빔 서치에 적용하기

빔 서치에서는 두 가지 변형이 가능하다:

IAS-of-M (확장 수 적응): 빔 폭 K는 고정하고, 각 단계에서 생성하는 후보 수 M을 조절한다. 가장 어려운 경로의 성공 확률을 기준으로 M을 결정한다.

IAS-of-K (빔 폭 적응): 후보 생성 수 M은 고정하고, 살려두는 빔 수 K를 조절한다. 유망하지 않은 경로를 더 과감하게 잘라낸다.

이론적 보장: 컨포멀 예측과의 연결

논문은 여기서 한 걸음 더 나아간다. 컨포멀 예측(conformal prediction) 이론을 활용하여, IAS의 성공 보장에 대한 이론적 하한을 제시한다.

핵심 정리(Theorem 1)를 직관적으로 말하면: "10% 분위수 예측을 사용해서 IAS를 실행하면, 검증 데이터의 크기에 따라 조정된 확률적 보장 하에서 목표 정확도 C를 달성한다." 이는 단순한 경험적 관찰이 아니라, 수학적으로 증명된 안전성이다.


제5장: 실험 결과 — 숫자로 보는 효과

실험 설정

  • 벤치마크: MATH500(대학 수학, 난이도 1~5), AIME24-25(수학 올림피아드)
  • PRM: Qwen2.5-Math-PRM-7B (최고 성능 오픈소스 PRM)
  • LLM 6종: Llama-1B, Llama-8B, Qwen-1.5B, Qwen-7B, R1-Llama-8B, R1-Qwen-7B
  • IAS 설정: 신뢰도 C = 0.99, 분위수 β = 0.1, 최대 예산 N_max = 64

결과 1: 캘리브레이션 성능

분위수 회귀 캘리브레이션은 모든 지표에서 기존 방법을 압도했다.

Brier Score 비교 — AIME24-25, R1-Qwen-7B (낮을수록 좋음)
보정 전
0.414
Temp. Scaling
0.301
Isotonic Reg.
0.225
Hist. Binning
0.198
QR (본 논문)
0.069

AIME(OOD)에서 기존 방법 대비 3~6배 낮은 캘리브레이션 오류를 달성했다. 특히 주목할 점은, 기존 방법들이 OOD 상황에서 급격히 성능이 떨어지는 반면, 분위수 회귀는 문맥 정보(문제 유형, 풀이 단계 위치 등)를 활용하여 일관되게 낮은 오류를 보인다는 것이다.

결과 2: 인스턴스 적응형 스케일링의 효과

IAS의 핵심 결과는 "정확도를 유지하면서 연산을 절약할 수 있는가"이다.

BoN + IAS 결과:

캘리브레이션 없이 IAS

MATH500 R1-Qwen-7B 정확도: 75.7% (BoN: 86.4%)
예산: 1.6% (사실상 Pass@1)
과신 → 예산 과도 축소 → 성능 붕괴

캘리브레이션 + IAS

MATH500 R1-Qwen-7B 정확도: 85.7% (BoN: 86.4%)
예산: 31.3% (68.7% 절약)
보수적 추정 → 적절한 예산 → 성능 유지

캘리브레이션 없이 IAS를 적용하면 재앙이 벌어진다. 과신하는 PRM이 "이 문제 쉬우니 1개만 생성해"라고 판단해서 예산을 1.6%까지 줄여버리고, 정확도가 Pass@1 수준으로 추락한다. 반면 캘리브레이션된 PRM은 정확도 99.2%를 유지하면서 연산량의 68.7%를 절약한다.

빔 서치 + IAS 결과:

빔 서치에서도 비슷한 패턴이다. IAS-of-K와 IAS-of-M 모두 정확도를 유지하면서 최대 75%의 연산 절약을 달성했다. 특히 R1 계열 추론 모델에서는 IAS가 기본 빔 서치보다 더 높은 정확도를 기록하기도 했다. 불필요한 경로를 일찍 잘라내면서 오히려 검색 효율이 높아진 것이다.

결과 3: 난이도별 적응 패턴

가장 인상적인 결과는 난이도별 연산 배분이다.

MATH500의 난이도 1(쉬움) 문제에서 IAS는 평균 약 4배 적은 샘플을 사용하고, 난이도 5(어려움) 문제에서는 최대 예산에 가까운 샘플을 배분했다. 인간이 시험 볼 때 하는 것과 정확히 같은 전략을 PRM이 자동으로 실행하는 것이다.

AIME(OOD) 문제에서는 대부분의 문제가 극히 어렵다고 판단하여 거의 최대 예산을 배분했다. 이는 "어려운 문제에서 무리하게 절약하지 않는" 올바른 보수적 판단이다.


제6장: 2026년, 이 논문이 중요한 이유

추론 모델의 비용 문제

2026년 현재, 추론 모델은 AI 산업의 핵심이다. OpenAI o3, Claude Opus의 확장 사고(extended thinking), DeepSeek-R3, Qwen-QwQ — 모두 "더 오래 생각해서 더 잘 푸는" 패러다임을 따른다.

하지만 비용이 문제다. 추론 모델은 일반 모델 대비 10~100배 많은 토큰을 생성한다. Best-of-64를 적용하면 비용이 64배로 뛴다. 기업 입장에서 모든 요청에 이 비용을 투입하는 것은 지속 가능하지 않다.

IAS는 이 문제에 대한 원칙적 해답이다. "쉬운 질문에는 적게, 어려운 질문에는 많이"라는 직관적이면서도 수학적으로 정당화된 전략을 제공한다.

안전성과 신뢰성의 기반

캘리브레이션된 PRM의 가치는 비용 절약을 넘어선다. AI 시스템이 자신의 한계를 정확하게 인식하는 것은 안전한 AI의 근본 조건이다.

의료 진단 AI가 "95% 확신합니다"라고 말했는데 실제로는 40%짜리 판단이었다면? 자율주행 AI가 "이 경로는 안전합니다"라고 과신했다면? 캘리브레이션은 AI가 "모르는 것을 안다"고 말할 수 있게 하는 기반 기술이다.

한계와 미래 방향

논문 저자들도 솔직하게 한계를 인정한다:

  1. 도메인 특화: 현재 수학 추론에서만 검증되었다. 코드 생성, 에이전트 계획 등 다른 도메인으로의 확장이 필요하다.
  2. 데이터 수집 비용: 캘리브레이션 데이터를 모으려면 몬테카를로 롤아웃이 필요한데, 이것 자체가 상당한 연산을 소모한다.
  3. 크로스-모델 일반화: 현재는 LLM별로 캘리브레이션을 해야 한다. LLM-불변 캘리브레이션은 미해결 과제다.

하지만 이 연구가 여는 방향은 광범위하다. 에이전트 시스템에서 "이 작업을 할 수 있을까?"를 판단하는 능력, 모델 라우팅에서 "이 쿼리는 작은 모델로 충분할까?"를 판단하는 능력, 그리고 사용자에게 "이 답은 불확실합니다"라고 솔직하게 말하는 능력 — 모두 캘리브레이션된 불확실성 추정에 기반한다.


마치며: "모르는 것을 아는" AI의 가치

소크라테스는 "내가 아는 것은 내가 모른다는 것뿐이다"라고 말했다. 2500년이 지나, 인공지능도 같은 교훈을 배우고 있다.

이 논문의 제목 "Know What You Don't Know"는 단순한 수사가 아니다. AI가 자신의 불확실성을 정확하게 인식하는 것은 — 과신하지 않고, 과소평가하지도 않으면서 — AI 시스템의 신뢰성, 효율성, 안전성의 토대다.

분위수 회귀라는 통계학의 고전적 도구가, 2026년 최전선의 추론 AI에서 이렇게 실용적으로 활용되는 것을 보면, 기초 학문의 가치를 다시 한 번 실감하게 된다. 수학 올림피아드 문제를 푸는 AI의 "자기 인식"을 개선하는 이 연구는, 궁극적으로 AI가 인간과 함께 일할 때 "언제 도움을 요청해야 하는지"를 아는 시스템을 만드는 첫걸음이다.


참고 논문: Young-Jin Park, Kristjan Greenewald, Kaveh Alim, Hao Wang, Navid Azizan. "Know What You Don't Know: Uncertainty Calibration of Process Reward Models." NeurIPS 2025. arXiv:2506.09338

프로젝트 페이지 및 데이터셋: young-j-park.github.io/know-what-you-dont-know | HuggingFace Datasets