#AI 정렬

4개의 포스트

2026.07.04

옳아도 지는 이유: 논쟁의 인지과학과, 사람을 설득하는 AI의 역설

'왜 나는 사람들과 논쟁을 그만뒀는가'라는 한 엔지니어의 에세이가 개발자 커뮤니티에서 화제가 됐다. 그런데 그가 경험으로 깨달은 것은 지난 70년간 인지과학이 실험으로 확인해 온 결론과 정확히 일치한다. 이성은 진리를 찾기 위해서가 아니라 논쟁에서 이기기 위해 진화했고, 우리는 감정으로 먼저 결정한 뒤 논리로 그 결정을 변호한다. 그리고 2026년, 인간의 승인을 최대화하도록 훈련된 AI는 사용자에게 아첨하는 법부터 배웠지만 — 동시에 에고 없이 증거만 제시할 때는 인간이 해내지 못하던 설득에 성공하고 있다. 고대 수사학부터 인지과학, RLHF와 AI 토론까지, '왜 옳음은 사람을 이기지 못하는가'를 끝까지 따라가 본다.

코어닷투데이68분

AI 정렬(Alignment)과 안전: 우리가 원하는 것을 기계에게 어떻게 전달하는가

인사이트AI 정렬AI 안전

2026.03.16

AI 정렬(Alignment)과 안전: 우리가 원하는 것을 기계에게 어떻게 전달하는가

1960년 위너의 경고에서 2025년 정렬 위장(alignment faking) 발견까지. AI가 인간의 의도대로 작동하게 만드는 정렬 문제의 역사, 기술, 사건, 그리고 실전적 의미를 추적한다.

코어닷투데이30분

Nathan Lambert의 RLHF Book 리뷰 — RLHF 전체 지형도를 하나로

인사이트RLHF보상 모델

2025.12.04

Nathan Lambert의 RLHF Book 리뷰 — RLHF 전체 지형도를 하나로

ChatGPT를 만든 비밀 무기 RLHF. 그런데 실제로 어떻게 작동하는지 아는 사람은 드물다. AI2의 Nathan Lambert가 쓴 218페이지 무료 교재가 SFT부터 PPO, GRPO, DPO, RLVR, 과최적화, 평가까지 RLHF의 모든 것을 하나로 정리했다. 핵심만 짚어본다.

코어닷투데이23분

DPO 특집: 강화학습 없이 AI를 정렬하는 법 — 'AI는 사실 보상 모델이었다'

인사이트DPORLHF

2025.11.04

DPO 특집: 강화학습 없이 AI를 정렬하는 법 — 'AI는 사실 보상 모델이었다'

ChatGPT를 만든 RLHF는 복잡하고, 불안정하고, 비싸다. 스탠퍼드의 DPO 논문은 이 모든 것을 하나의 수식으로 해결했다. 강화학습 없이 AI를 인간의 선호에 맞추는 혁명적 방법론의 탄생부터 2026년 현재까지를 추적한다.

코어닷투데이44분