#RLVR

2개의 포스트

2026.01.29

포스트 트레이닝 혁명 — RLHF에서 SimPO, KTO, ORPO, RLVR까지 완전 정리

LLM을 똑똑하게 만드는 건 사전 학습이지만, 쓸모 있게 만드는 건 포스트 트레이닝이다. RLHF의 복잡함에서 DPO의 우아함으로, 그리고 SimPO·KTO·ORPO·RLVR까지 — 2026년 AI 정렬 기술의 모든 것.

코어닷투데이29분

Nathan Lambert의 RLHF Book 리뷰 — RLHF 전체 지형도를 하나로

인사이트RLHF보상 모델

2025.12.04

Nathan Lambert의 RLHF Book 리뷰 — RLHF 전체 지형도를 하나로

ChatGPT를 만든 비밀 무기 RLHF. 그런데 실제로 어떻게 작동하는지 아는 사람은 드물다. AI2의 Nathan Lambert가 쓴 218페이지 무료 교재가 SFT부터 PPO, GRPO, DPO, RLVR, 과최적화, 평가까지 RLHF의 모든 것을 하나로 정리했다. 핵심만 짚어본다.

코어닷투데이23분