1개의 포스트
LLM을 똑똑하게 만드는 건 사전 학습이지만, 쓸모 있게 만드는 건 포스트 트레이닝이다. RLHF의 복잡함에서 DPO의 우아함으로, 그리고 SimPO·KTO·ORPO·RLVR까지 — 2026년 AI 정렬 기술의 모든 것.