#PRM

2개의 포스트

매일 쓰는 AI 에이전트가 사용자의 반응, 터미널 출력, GUI 변화까지 '다음 상태 신호'로 읽어 스스로 진화한다면? OpenClaw-RL 논문이 제시하는 '대화만으로 학습하는 에이전트'의 원리를 역사적 맥락부터 핵심 기술까지 쉽고 깊게 풀어본다.

수학 문제를 풀 때 AI는 '이 풀이가 맞을 확률'을 심각하게 과대평가한다. MIT 연구팀은 분위수 회귀로 이 과신을 교정하고, 문제 난이도에 따라 연산량을 자동 조절하는 프레임워크를 제안했다. NeurIPS 2025 논문을 쉽게 풀어본다.