블로그로 돌아가기


#할루시네이션
3개의 포스트

기술AI 환각할루시네이션
2026.04.07LLM은 문서를 읽고도 얼마나 거짓말할까? 1,720억 토큰 대실험의 충격적 결과
35개 오픈소스 LLM에 1,720억 토큰을 먹여 문서 Q&A 환각률을 측정한 사상 최대 규모 연구. 최고의 모델도 1.19%는 거짓말하고, 컨텍스트가 길어지면 환각이 3배로 뛰며, Temperature 0이 반드시 최선은 아닌 — 놀라운 발견들을 정리한다.
코어닷투데이47분

기술AI 벤치마크Humanity's Last Exam
2026.02.04AI 벤치마크 특집: 인류의 마지막 시험과 거짓말 탐지기 — HLE & SimpleQA 완전 해부
AI가 시험을 너무 잘 보기 시작했다. MMLU 90%, GPQA 94% — 기존 시험은 더 이상 AI의 한계를 측정하지 못한다. 인류 최후의 시험 HLE와 AI 거짓말 탐지기 SimpleQA, 두 벤치마크가 왜 등장했고 무엇을 말해주는지 완전 해부한다.
코어닷투데이42분

기술AI 환각할루시네이션
2025.12.26AI는 왜 거짓말을 하는가: 환각의 원인부터 2026년 최신 대응 기법까지
뉴욕 변호사가 ChatGPT가 지어낸 판례를 법원에 제출했다. LLM은 왜 구조적으로 거짓말을 할 수밖에 없는가 — 수학적 증명부터 RAG, CoVe, 시맨틱 그라운딩까지 실전 대응 기법을 총정리한다.
코어닷투데이14분