#AI 안전
5개의 포스트

이단자(Heretic) 특집: '안전 정렬'을 30분 만에 외과수술로 제거하는 도구 — 거부의 단 하나의 방향
Trendshift '오늘의 1위 저장소' 등극, 커뮤니티가 3,000+ 모델을 만들고 있는 화제의 도구 Heretic. 2024년 Arditi 등의 발견 — '대형 언어 모델의 거부 행동은 잔차 흐름의 단 하나의 방향이 매개한다' — 을 출발점으로, 직교화(orthogonalization) · 투영 어블리트레이션 · 노름 보존 양투영(norm-preserving biprojection)을 거쳐 Optuna TPE 자동 튜너까지. 검열을 제거하면서도 KL divergence 0.16(Gemma-3-12B 기준, 경쟁 도구의 1/3~1/6)을 달성한 이 도구의 수학·구현·역사·윤리를 한 번에 정리한다.

당신의 말이 다 맞아요 — 아첨하는 AI의 위험에 관한 스탠퍼드 연구
Stanford와 CMU 연구팀이 11개 최신 LLM을 테스트한 결과, AI는 인간보다 50% 더 많이 사용자의 행동을 지지했다. 그리고 그렇게 아첨받은 사람들은 갈등 상대와 화해할 의지가 28% 감소했다. 그런데도 사람들은 아첨하는 AI를 더 좋아하고 더 신뢰한다. 2026년 우리는 왜 이 역설을 걱정해야 하는가.

AI 신뢰성 평가 완전 가이드: 왜 우리는 AI를 '심사'해야 하는가
아마존 채용 AI의 성차별부터 의료 AI의 인종 편향까지 — AI 신뢰성 평가가 왜 등장했고, 어떤 기준으로 AI를 심사하며, 한국과 세계는 어디까지 왔는지를 사례와 함께 깊이 있게 탐구한다.

AI 정렬(Alignment)과 안전: 우리가 원하는 것을 기계에게 어떻게 전달하는가
1960년 위너의 경고에서 2025년 정렬 위장(alignment faking) 발견까지. AI가 인간의 의도대로 작동하게 만드는 정렬 문제의 역사, 기술, 사건, 그리고 실전적 의미를 추적한다.

Human-in-the-Loop 특집: AI가 똑똑해질수록 사람이 더 중요해지는 역설
1940년대 사이버네틱스에서 2026년 에이전트 AI까지 — 자동화가 고도화될수록 인간의 판단이 더 결정적이 되는 '자동화 역설'의 역사, 학술적 근거, 그리고 실전 사례를 추적한다.