#DPO

5개의 포스트

2026.06.20

박사 학위로도 부족하다: 어느 DeepMind 연구자의 면접 가이드가 드러낸 'AI 실력의 지도'

옥스퍼드 박사에 1저자 논문이 여러 편, 그런데도 그녀는 LeetCode 150문제를 풀고 FlashAttention을 맨손으로 구현했다. DeepMind에 합격한 Silvia Sapora의 면접 가이드가 화제가 된 건 '준비법' 때문만이 아니다. 그 글에 담긴 공부 목록이 곧 2026년 현대 AI의 전체 지도였기 때문이다. 면접의 역사부터 어텐션·디퓨전·정렬·분산학습의 핵심 개념까지, 쉽고 자세하게 풀어본다.

코어닷투데이36분

포스트 트레이닝 혁명 — RLHF에서 SimPO, KTO, ORPO, RLVR까지 완전 정리

기술포스트 트레이닝RLHF

2026.01.29

포스트 트레이닝 혁명 — RLHF에서 SimPO, KTO, ORPO, RLVR까지 완전 정리

LLM을 똑똑하게 만드는 건 사전 학습이지만, 쓸모 있게 만드는 건 포스트 트레이닝이다. RLHF의 복잡함에서 DPO의 우아함으로, 그리고 SimPO·KTO·ORPO·RLVR까지 — 2026년 AI 정렬 기술의 모든 것.

코어닷투데이29분

모든 길은 우도(Likelihood)로 통한다 — RLHF는 왜 DPO를 이기는가

인사이트RLHFDPO

2025.12.19

모든 길은 우도(Likelihood)로 통한다 — RLHF는 왜 DPO를 이기는가

정보이론적으로 RLHF는 DPO보다 나을 수 없다. 그런데 실제로는 항상 이긴다. CMU와 코넬의 연구팀이 밝혀낸 그 이유는, 컴퓨터 과학의 가장 유명한 난제 P≠NP와 연결되어 있었다.

코어닷투데이31분

Nathan Lambert의 RLHF Book 리뷰 — RLHF 전체 지형도를 하나로

인사이트RLHF보상 모델

2025.12.04

Nathan Lambert의 RLHF Book 리뷰 — RLHF 전체 지형도를 하나로

ChatGPT를 만든 비밀 무기 RLHF. 그런데 실제로 어떻게 작동하는지 아는 사람은 드물다. AI2의 Nathan Lambert가 쓴 218페이지 무료 교재가 SFT부터 PPO, GRPO, DPO, RLVR, 과최적화, 평가까지 RLHF의 모든 것을 하나로 정리했다. 핵심만 짚어본다.

코어닷투데이23분

DPO 특집: 강화학습 없이 AI를 정렬하는 법 — 'AI는 사실 보상 모델이었다'

인사이트DPORLHF

2025.11.04

DPO 특집: 강화학습 없이 AI를 정렬하는 법 — 'AI는 사실 보상 모델이었다'

ChatGPT를 만든 RLHF는 복잡하고, 불안정하고, 비싸다. 스탠퍼드의 DPO 논문은 이 모든 것을 하나의 수식으로 해결했다. 강화학습 없이 AI를 인간의 선호에 맞추는 혁명적 방법론의 탄생부터 2026년 현재까지를 추적한다.

코어닷투데이44분