블로그로 돌아가기



#AI 안전
4개의 포스트

인사이트AI 안전아첨
2026.05.12당신의 말이 다 맞아요 — 아첨하는 AI의 위험에 관한 스탠퍼드 연구
Stanford와 CMU 연구팀이 11개 최신 LLM을 테스트한 결과, AI는 인간보다 50% 더 많이 사용자의 행동을 지지했다. 그리고 그렇게 아첨받은 사람들은 갈등 상대와 화해할 의지가 28% 감소했다. 그런데도 사람들은 아첨하는 AI를 더 좋아하고 더 신뢰한다. 2026년 우리는 왜 이 역설을 걱정해야 하는가.
코어닷투데이40분

인사이트AI 신뢰성AI 안전
2026.04.13AI 신뢰성 평가 완전 가이드: 왜 우리는 AI를 '심사'해야 하는가
아마존 채용 AI의 성차별부터 의료 AI의 인종 편향까지 — AI 신뢰성 평가가 왜 등장했고, 어떤 기준으로 AI를 심사하며, 한국과 세계는 어디까지 왔는지를 사례와 함께 깊이 있게 탐구한다.
코어닷투데이52분

인사이트AI 정렬AI 안전
2026.03.16AI 정렬(Alignment)과 안전: 우리가 원하는 것을 기계에게 어떻게 전달하는가
1960년 위너의 경고에서 2025년 정렬 위장(alignment faking) 발견까지. AI가 인간의 의도대로 작동하게 만드는 정렬 문제의 역사, 기술, 사건, 그리고 실전적 의미를 추적한다.
코어닷투데이30분

인사이트HITLRLHF
2025.12.11Human-in-the-Loop 특집: AI가 똑똑해질수록 사람이 더 중요해지는 역설
1940년대 사이버네틱스에서 2026년 에이전트 AI까지 — 자동화가 고도화될수록 인간의 판단이 더 결정적이 되는 '자동화 역설'의 역사, 학술적 근거, 그리고 실전 사례를 추적한다.
코어닷투데이50분