1개의 포스트
GPT-4o와 동급의 시각 이해, OCR에서는 압도적 1위, 그리고 몇 시간짜리 영상까지 이해한다. 알리바바의 Qwen2.5-VL이 3B부터 72B까지 세 가지 크기로 내놓은 '보는 AI'의 설계도를 완전 해부한다.