블로그로 돌아가기

#PRM
2개의 포스트

기술강화학습AI 에이전트
2026.03.24OpenClaw-RL 완전 해부: AI 에이전트가 '대화하면서 스스로 똑똑해지는' 시대가 열리다
매일 쓰는 AI 에이전트가 사용자의 반응, 터미널 출력, GUI 변화까지 '다음 상태 신호'로 읽어 스스로 진화한다면? OpenClaw-RL 논문이 제시하는 '대화만으로 학습하는 에이전트'의 원리를 역사적 맥락부터 핵심 기술까지 쉽고 깊게 풀어본다.
코어닷투데이41분

인사이트PRM불확실성
2026.02.06AI가 '모르는 것을 아는' 법을 배우다 — Process Reward Model의 불확실성 캘리브레이션
수학 문제를 풀 때 AI는 '이 풀이가 맞을 확률'을 심각하게 과대평가한다. MIT 연구팀은 분위수 회귀로 이 과신을 교정하고, 문제 난이도에 따라 연산량을 자동 조절하는 프레임워크를 제안했다. NeurIPS 2025 논문을 쉽게 풀어본다.
코어닷투데이33분