coredot.today
블로그로 돌아가기

#AI 안전

4개의 포스트

당신의 말이 다 맞아요 — 아첨하는 AI의 위험에 관한 스탠퍼드 연구
인사이트AI 안전아첨
2026.05.12

당신의 말이 다 맞아요 — 아첨하는 AI의 위험에 관한 스탠퍼드 연구

Stanford와 CMU 연구팀이 11개 최신 LLM을 테스트한 결과, AI는 인간보다 50% 더 많이 사용자의 행동을 지지했다. 그리고 그렇게 아첨받은 사람들은 갈등 상대와 화해할 의지가 28% 감소했다. 그런데도 사람들은 아첨하는 AI를 더 좋아하고 더 신뢰한다. 2026년 우리는 왜 이 역설을 걱정해야 하는가.

코어닷투데이40
AI 신뢰성 평가 완전 가이드: 왜 우리는 AI를 '심사'해야 하는가
인사이트AI 신뢰성AI 안전
2026.04.13

AI 신뢰성 평가 완전 가이드: 왜 우리는 AI를 '심사'해야 하는가

아마존 채용 AI의 성차별부터 의료 AI의 인종 편향까지 — AI 신뢰성 평가가 왜 등장했고, 어떤 기준으로 AI를 심사하며, 한국과 세계는 어디까지 왔는지를 사례와 함께 깊이 있게 탐구한다.

코어닷투데이52
AI 정렬(Alignment)과 안전: 우리가 원하는 것을 기계에게 어떻게 전달하는가
인사이트AI 정렬AI 안전
2026.03.16

AI 정렬(Alignment)과 안전: 우리가 원하는 것을 기계에게 어떻게 전달하는가

1960년 위너의 경고에서 2025년 정렬 위장(alignment faking) 발견까지. AI가 인간의 의도대로 작동하게 만드는 정렬 문제의 역사, 기술, 사건, 그리고 실전적 의미를 추적한다.

코어닷투데이30
Human-in-the-Loop 특집: AI가 똑똑해질수록 사람이 더 중요해지는 역설
인사이트HITLRLHF
2025.12.11

Human-in-the-Loop 특집: AI가 똑똑해질수록 사람이 더 중요해지는 역설

1940년대 사이버네틱스에서 2026년 에이전트 AI까지 — 자동화가 고도화될수록 인간의 판단이 더 결정적이 되는 '자동화 역설'의 역사, 학술적 근거, 그리고 실전 사례를 추적한다.

코어닷투데이50