블로그로 돌아가기

#벤치마크
2개의 포스트

논문 리뷰GameWorld게임 AI
2026.04.13GameWorld: AI가 비디오 게임을 '제대로' 할 수 있을까? — 멀티모달 게임 에이전트 평가의 새로운 기준
34개 브라우저 게임, 170개 태스크, 18개 모델로 AI 게임 에이전트를 체계적으로 평가한 GameWorld 벤치마크를 깊이 있게 분석합니다. 왜 최고의 AI도 초보 게이머에게 지는지, 그 이유를 파헤칩니다.
코어닷투데이50분

기술GraphRAGRAG
2026.04.08GraphRAG는 정말 효과적인가? — ICLR 2026 논문이 밝힌 9가지 진실
그래프가 RAG를 377배 비싸게 만든다면, 언제 쓸 가치가 있을까? ICLR 2026에서 발표된 GraphRAG-Bench 논문이 9개 시스템을 체계적으로 벤치마킹하여 밝혀낸 9가지 핵심 발견을 깊이 있게 분석합니다.
코어닷투데이67분