#AI 안전

5개의 포스트

2026.05.27

이단자(Heretic) 특집: '안전 정렬'을 30분 만에 외과수술로 제거하는 도구 — 거부의 단 하나의 방향

Trendshift '오늘의 1위 저장소' 등극, 커뮤니티가 3,000+ 모델을 만들고 있는 화제의 도구 Heretic. 2024년 Arditi 등의 발견 — '대형 언어 모델의 거부 행동은 잔차 흐름의 단 하나의 방향이 매개한다' — 을 출발점으로, 직교화(orthogonalization) · 투영 어블리트레이션 · 노름 보존 양투영(norm-preserving biprojection)을 거쳐 Optuna TPE 자동 튜너까지. 검열을 제거하면서도 KL divergence 0.16(Gemma-3-12B 기준, 경쟁 도구의 1/3~1/6)을 달성한 이 도구의 수학·구현·역사·윤리를 한 번에 정리한다.

코어닷투데이65분

인사이트AI 안전아첨

2026.05.12

당신의 말이 다 맞아요 — 아첨하는 AI의 위험에 관한 스탠퍼드 연구

Stanford와 CMU 연구팀이 11개 최신 LLM을 테스트한 결과, AI는 인간보다 50% 더 많이 사용자의 행동을 지지했다. 그리고 그렇게 아첨받은 사람들은 갈등 상대와 화해할 의지가 28% 감소했다. 그런데도 사람들은 아첨하는 AI를 더 좋아하고 더 신뢰한다. 2026년 우리는 왜 이 역설을 걱정해야 하는가.

코어닷투데이40분