coredot.today
블로그로 돌아가기

#보상 모델

4개의 포스트

모든 길은 우도(Likelihood)로 통한다 — RLHF는 왜 DPO를 이기는가
인사이트RLHFDPO
2025.12.19

모든 길은 우도(Likelihood)로 통한다 — RLHF는 왜 DPO를 이기는가

정보이론적으로 RLHF는 DPO보다 나을 수 없다. 그런데 실제로는 항상 이긴다. CMU와 코넬의 연구팀이 밝혀낸 그 이유는, 컴퓨터 과학의 가장 유명한 난제 P≠NP와 연결되어 있었다.

코어닷투데이31
Nathan Lambert의 RLHF Book 리뷰 — RLHF 전체 지형도를 하나로
인사이트RLHF보상 모델
2025.12.04

Nathan Lambert의 RLHF Book 리뷰 — RLHF 전체 지형도를 하나로

ChatGPT를 만든 비밀 무기 RLHF. 그런데 실제로 어떻게 작동하는지 아는 사람은 드물다. AI2의 Nathan Lambert가 쓴 218페이지 무료 교재가 SFT부터 PPO, GRPO, DPO, RLVR, 과최적화, 평가까지 RLHF의 모든 것을 하나로 정리했다. 핵심만 짚어본다.

코어닷투데이23
RLHF의 기원: '보상 함수를 쓸 수 없다면, 인간에게 물어보라'
기술RLHF강화학습
2025.10.14

RLHF의 기원: '보상 함수를 쓸 수 없다면, 인간에게 물어보라'

ChatGPT를 만든 기술의 원조 논문. 보상 함수를 쓸 수 없는 과제를 인간의 선호 판단 1% 미만으로 해결한 2017년 논문을 해부하며, 강화학습의 기초부터 현대 AI까지의 여정을 쉽게 풀어낸다.

코어닷투데이29
InstructGPT 해부: 1.3B 모델이 175B를 이긴 날, RLHF의 모든 것
기술InstructGPTRLHF
2025.10.07

InstructGPT 해부: 1.3B 모델이 175B를 이긴 날, RLHF의 모든 것

GPT-3는 왜 '도움이 되는 비서'가 아니었을까? 100배 작은 모델이 거대 모델을 이긴 비결은? InstructGPT 논문을 해부하며, ChatGPT를 탄생시킨 RLHF 기술을 처음부터 쉽게 풀어낸다.

코어닷투데이31