#할루시네이션

3개의 포스트

35개 오픈소스 LLM에 1,720억 토큰을 먹여 문서 Q&A 환각률을 측정한 사상 최대 규모 연구. 최고의 모델도 1.19%는 거짓말하고, 컨텍스트가 길어지면 환각이 3배로 뛰며, Temperature 0이 반드시 최선은 아닌 — 놀라운 발견들을 정리한다.

AI가 시험을 너무 잘 보기 시작했다. MMLU 90%, GPQA 94% — 기존 시험은 더 이상 AI의 한계를 측정하지 못한다. 인류 최후의 시험 HLE와 AI 거짓말 탐지기 SimpleQA, 두 벤치마크가 왜 등장했고 무엇을 말해주는지 완전 해부한다.

뉴욕 변호사가 ChatGPT가 지어낸 판례를 법원에 제출했다. LLM은 왜 구조적으로 거짓말을 할 수밖에 없는가 — 수학적 증명부터 RAG, CoVe, 시맨틱 그라운딩까지 실전 대응 기법을 총정리한다.