블로그로 돌아가기


#AI 정렬
3개의 포스트

인사이트AI 정렬AI 안전
2026.03.16AI 정렬(Alignment)과 안전: 우리가 원하는 것을 기계에게 어떻게 전달하는가
1960년 위너의 경고에서 2025년 정렬 위장(alignment faking) 발견까지. AI가 인간의 의도대로 작동하게 만드는 정렬 문제의 역사, 기술, 사건, 그리고 실전적 의미를 추적한다.
코어닷투데이30분

인사이트RLHF보상 모델
2025.12.04Nathan Lambert의 RLHF Book 리뷰 — RLHF 전체 지형도를 하나로
ChatGPT를 만든 비밀 무기 RLHF. 그런데 실제로 어떻게 작동하는지 아는 사람은 드물다. AI2의 Nathan Lambert가 쓴 218페이지 무료 교재가 SFT부터 PPO, GRPO, DPO, RLVR, 과최적화, 평가까지 RLHF의 모든 것을 하나로 정리했다. 핵심만 짚어본다.
코어닷투데이23분

인사이트DPORLHF
2025.11.04DPO 특집: 강화학습 없이 AI를 정렬하는 법 — 'AI는 사실 보상 모델이었다'
ChatGPT를 만든 RLHF는 복잡하고, 불안정하고, 비싸다. 스탠퍼드의 DPO 논문은 이 모든 것을 하나의 수식으로 해결했다. 강화학습 없이 AI를 인간의 선호에 맞추는 혁명적 방법론의 탄생부터 2026년 현재까지를 추적한다.
코어닷투데이44분