1개의 포스트
CLIP이 이미지와 텍스트를 하나의 공간에 넣었고, GPT-4V가 LLM에 눈을 달았고, RT-2가 로봇에게 손을 줬다. 2026년, AI는 인간처럼 보고 듣고 말하고 행동한다 — 멀티모달 AI의 역사, 원리, 그리고 현재.