#LLM 벤치마크

1개의 포스트

35개 오픈소스 LLM에 1,720억 토큰을 먹여 문서 Q&A 환각률을 측정한 사상 최대 규모 연구. 최고의 모델도 1.19%는 거짓말하고, 컨텍스트가 길어지면 환각이 3배로 뛰며, Temperature 0이 반드시 최선은 아닌 — 놀라운 발견들을 정리한다.