1개의 포스트
정보이론적으로 RLHF는 DPO보다 나을 수 없다. 그런데 실제로는 항상 이긴다. CMU와 코넬의 연구팀이 밝혀낸 그 이유는, 컴퓨터 과학의 가장 유명한 난제 P≠NP와 연결되어 있었다.