1개의 포스트
AI가 시험을 너무 잘 보기 시작했다. MMLU 90%, GPQA 94% — 기존 시험은 더 이상 AI의 한계를 측정하지 못한다. 인류 최후의 시험 HLE와 AI 거짓말 탐지기 SimpleQA, 두 벤치마크가 왜 등장했고 무엇을 말해주는지 완전 해부한다.