블로그로 돌아가기

#비전 언어 모델
2개의 포스트

기술멀티모달 AICLIP
2026.03.19멀티모달 AI 완전 가이드: 텍스트·이미지·음성·영상을 동시에 이해하는 AI의 모든 것
CLIP이 이미지와 텍스트를 하나의 공간에 넣었고, GPT-4V가 LLM에 눈을 달았고, RT-2가 로봇에게 손을 줬다. 2026년, AI는 인간처럼 보고 듣고 말하고 행동한다 — 멀티모달 AI의 역사, 원리, 그리고 현재.
코어닷투데이22분

기술멀티모달Qwen2.5-VL
2026.02.22Qwen2.5-VL 해부: 문서도, 영상도, 스마트폰도 '보는' AI의 구조
GPT-4o와 동급의 시각 이해, OCR에서는 압도적 1위, 그리고 몇 시간짜리 영상까지 이해한다. 알리바바의 Qwen2.5-VL이 3B부터 72B까지 세 가지 크기로 내놓은 '보는 AI'의 설계도를 완전 해부한다.
코어닷투데이33분