1개의 포스트
대부분의 오픈소스 비전-언어 모델은 GPT-4V가 생성한 합성 데이터로 훈련된다 — 결국 비공개 AI에 종속되는 셈이다. Allen AI의 Molmo는 사람이 직접 '말로 설명한' 71만 장의 이미지 데이터로 GPT-4o 바로 아래까지 올라갔다. 포인팅, 카운팅, 시계 읽기까지 — 진짜 오픈소스 VLM의 설계 원리를 풀어본다.