#VLM

2개의 포스트

2026.03.19

멀티모달 AI 완전 가이드: 텍스트·이미지·음성·영상을 동시에 이해하는 AI의 모든 것

CLIP이 이미지와 텍스트를 하나의 공간에 넣었고, GPT-4V가 LLM에 눈을 달았고, RT-2가 로봇에게 손을 줬다. 2026년, AI는 인간처럼 보고 듣고 말하고 행동한다 — 멀티모달 AI의 역사, 원리, 그리고 현재.

코어닷투데이22분

Molmo & PixMo 완전 해부: GPT-4o에 도전한 '진짜 오픈소스' 비전-언어 모델의 모든 것

기술MolmoPixMo

2026.02.16

Molmo & PixMo 완전 해부: GPT-4o에 도전한 '진짜 오픈소스' 비전-언어 모델의 모든 것

대부분의 오픈소스 비전-언어 모델은 GPT-4V가 생성한 합성 데이터로 훈련된다 — 결국 비공개 AI에 종속되는 셈이다. Allen AI의 Molmo는 사람이 직접 '말로 설명한' 71만 장의 이미지 데이터로 GPT-4o 바로 아래까지 올라갔다. 포인팅, 카운팅, 시계 읽기까지 — 진짜 오픈소스 VLM의 설계 원리를 풀어본다.

코어닷투데이44분