특집HereticAbliteration
2026.05.27이단자(Heretic) 특집: '안전 정렬'을 30분 만에 외과수술로 제거하는 도구 — 거부의 단 하나의 방향
Trendshift '오늘의 1위 저장소' 등극, 커뮤니티가 3,000+ 모델을 만들고 있는 화제의 도구 Heretic. 2024년 Arditi 등의 발견 — '대형 언어 모델의 거부 행동은 잔차 흐름의 단 하나의 방향이 매개한다' — 을 출발점으로, 직교화(orthogonalization) · 투영 어블리트레이션 · 노름 보존 양투영(norm-preserving biprojection)을 거쳐 Optuna TPE 자동 튜너까지. 검열을 제거하면서도 KL divergence 0.16(Gemma-3-12B 기준, 경쟁 도구의 1/3~1/6)을 달성한 이 도구의 수학·구현·역사·윤리를 한 번에 정리한다.