멀티모달 AICLIPVLMVLAGPT-4oGemini비전 언어 모델객체 검출

멀티모달 AI 완전 가이드: 텍스트·이미지·음성·영상을 동시에 이해하는 AI의 모든 것

CLIP이 이미지와 텍스트를 하나의 공간에 넣었고, GPT-4V가 LLM에 눈을 달았고, RT-2가 로봇에게 손을 줬다. 2026년, AI는 인간처럼 보고 듣고 말하고 행동한다 — 멀티모달 AI의 역사, 원리, 그리고 현재.

코어닷투데이2026-03-1922분

들어가며: AI가 드디어 "본다"

2023년 이전의 AI는 귀머거리에 눈먼 천재였다. 텍스트는 완벽하게 이해하지만, 사진을 보여주면 아무것도 모른다. 음악을 들려주면 침묵한다. 영상을 틀어주면 반응이 없다.

2026년의 AI는 다르다:

Gemini 3.1 Pro: 1시간짜리 영상을 보고, 8.4시간짜리 오디오를 듣고, 900쪽 PDF를 읽는다
GPT-4o: 실시간으로 사람과 음성 대화하면서, 카메라에 비친 것을 동시에 이해한다
Claude: 화면을 보고 마우스를 움직여 업무를 자동화한다

이것이 멀티모달 AI — 텍스트, 이미지, 음성, 영상을 동시에 이해하고 생성하는 AI다.

제1장: 역사 — 어떻게 AI에 "눈"이 생겼는가

핵심 타임라인

2020 — ViT: 이미지를 단어처럼 처리한다

↓

2021 — CLIP: 이미지와 텍스트를 같은 공간에 넣다

↓

2022 — Flamingo: LLM에 눈을 달다

↓

2023 — GPT-4V: 대형 모델이 사진을 이해하다

↓

2024 — GPT-4o: 보고 듣고 말하는 통합 모델

↓

2026 — VLA: 보고 생각하고 행동하는 AI

ViT — "이미지는 16x16 단어의 나열이다" (2020)

Google의 Dosovitskiy 등이 발표한 Vision Transformer(ViT)는 혁명적 발상을 제시했다: 이미지를 패치(조각)로 잘라서 단어처럼 처리한다.

224x224 이미지 → 16x16 패치 196개 → 각 패치를 벡터로 변환 → Transformer에 입력

이전에는 이미지에는 CNN, 텍스트에는 Transformer라는 별도 구조를 썼다. ViT 이후 이미지와 텍스트를 같은 Transformer로 처리할 수 있게 되었다. 멀티모달의 기술적 토대가 마련된 순간이다.

CLIP — "이미지와 텍스트를 같은 공간에" (2021)

OpenAI의 CLIP(Contrastive Language-Image Pre-training)은 멀티모달 AI의 진정한 시작이다.

핵심 아이디어: 4억 개의 이미지-텍스트 쌍으로, 이미지와 텍스트를 같은 벡터 공간에 매핑하는 법을 학습했다. "강아지" 사진과 "a dog" 텍스트는 벡터 공간에서 가까이 위치하고, "강아지" 사진과 "a car" 텍스트는 멀리 위치한다.

CLIP의 대조 학습(Contrastive Learning)

이미지 인코더 ViT 이미지 → 벡터

공유 임베딩 공간 일치하는 쌍은 가깝게, 불일치하는 쌍은 멀게

텍스트 인코더 Transformer 텍스트 → 벡터

결과: 한 번도 학습하지 않은 카테고리도 제로샷(zero-shot)으로 인식. ImageNet에서 학습 없이 76.2% 정확도 — 전용으로 학습한 ResNet-50과 동급이었다.

CLIP은 이후 DALL-E, Stable Diffusion, Midjourney 등 모든 이미지 생성 모델의 "눈" 역할을 했다.

GPT-4V — LLM이 사진을 보다 (2023)

2023년 3월, OpenAI가 GPT-4에 비전 기능을 추가한 GPT-4V를 공개했다. 최초의 대형 언어 모델에 시각 이해를 결합한 사례다.

사진을 보여주고 "이 이미지에서 무엇이 보이나요?"라고 물으면, 텍스트로 설명한다. 의료 이미지 해석에서 JAMA 기준 73.3%, NEJM 기준 88.7% 정확도를 기록했다.

GPT-4o — 보고 듣고 말하는 통합 모델 (2024)

2024년 5월, GPT-4o("omni")가 텍스트·이미지·음성을 단일 아키텍처에서 처리했다. 실시간 음성 대화가 가능해졌고, 대화 중에 카메라에 보이는 것을 동시에 이해할 수 있게 되었다.

이전에는 음성 인식(ASR) → 텍스트 처리(LLM) → 음성 합성(TTS)을 별도 파이프라인으로 연결했다. GPT-4o는 이 모든 것을 하나의 모델에서 처리해 지연을 극적으로 줄였다.

제2장: 어떻게 작동하는가 — 핵심 원리

1. 비전 인코더 (이미지 → 벡터)

이미지를 AI가 이해할 수 있는 숫자 배열(벡터)로 변환하는 과정:

224×224 이미지를 16×16 패치 196개로 분할
각 패치를 선형 투영으로 768차원 벡터로 변환
위치 정보를 추가 (어디에 있던 패치인지)
Transformer 인코더에 통과 → 이미지의 의미를 담은 벡터 출력

2. 교차 어텐션 (Cross-Attention) — 비밀 소스

멀티모달의 핵심 메커니즘. 텍스트가 이미지의 어떤 부분에 주목해야 하는지 학습한다.

텍스트의 숨겨진 상태 → 쿼리(Query)

↓

이미지의 특징 → 키(Key) + 값(Value)

↓

각 텍스트 토큰이 이미지의 어떤 패치에 얼마나 "관심을 가질지" 계산

예: "이 사진에서 고양이가 어디에 있나요?"라는 질문에서, "고양이"라는 텍스트 토큰이 이미지의 고양이 영역 패치에 높은 어텐션 점수를 부여한다.

3. 퓨전 전략 — 언제 합칠 것인가

전략	방식	장점	단점	대표 모델
조기 퓨전	모든 모달리티 토큰을 처음부터 결합	깊은 상호작용	비용 높음	GPT-5, Gemini
후기 퓨전	각 모달리티를 독립 처리 후 최종 합산	효율적	세밀한 상호작용 부족	앙상블
중간 퓨전	초기 독립, 후반 교차 어텐션	균형	퓨전 지점 설계 필요	Flamingo

2026년 추세: 프론티어 모델(GPT-5, Gemini)은 처음부터 모든 모달리티를 함께 학습하는 "네이티브 멀티모달"이 주류가 되었다.

제3장: 2026년 멀티모달 모델 지형도

프로프라이어터리 모델

2026년 주요 멀티모달 모델

Gemini 3.1 Pro Google GPQA 94.3% (역대 최고). 1시간 영상, 8.4시간 오디오, 900쪽 PDF.

GPT-5.4 OpenAI 네이티브 멀티모달. MMMU 84.2%. 실시간 음성 + 영상 분석.

Claude Opus 4.6 Anthropic 최고 비전 품질. 컴퓨터 사용(화면 보고 클릭). 100만 토큰 컨텍스트.

Qwen3.5 Alibaba 네이티브 멀티모달 MoE. 2시간 영상 분석. 에이전틱 작업.

오픈소스 모델

모델	파라미터	핵심 능력	벤치마크
Qwen3-VL-235B	235B (22B 활성)	문서·영상·컴퓨터/폰 사용	GPT-5/Gemini급
InternVL3-78B	78B	도구 사용, GUI 에이전트, 3D 비전	MMMU 72.2% (오픈소스 최고)
Qwen2.5-VL-32B	32B	차트, 레이아웃, OCR, 디바이스 제어	MMBench 80%+
LLaVA-OneVision	다양	완전 오픈 학습 데이터/코드	경쟁력 있지만 후발

오픈소스 VLM은 프로프라이어터리 대비 추론 비용을 최대 60% 절감하면서도 경쟁력 있는 벤치마크를 달성하고 있다.

제4장: 음성과 영상 — 나머지 감각

음성: Whisper에서 실시간 대화까지

OpenAI Whisper (2022): 68만 시간의 다국어 데이터로 학습. 99개 언어 지원. 평균 단어 오류율 8.06%.

GPT-4o Transcribe (2025): Whisper 대비 환각 ~90% 감소. 음성-텍스트-음성이 단일 API로 통합(Realtime API).

Gemini 3.1 Pro: 단일 프롬프트에 8.4시간의 연속 오디오 입력. 감정·의도를 인식하고, 실시간 번역까지.

영상: 분석에서 생성까지

영상 이해:

Gemini 3.1 Pro: 1시간 영상 분석
Qwen3.5: 2시간 영상 + 초 단위 인덱싱

영상 생성 (2026):

모델	최대 길이	네이티브 오디오	해상도	특징
Sora 2	60초	있음	1080p	물리 시뮬레이션, 인과관계 이해
Veo 3.1	확장 가능	있음 (공동 확산)	4K	립싱크 120ms 이하
Kling 3.0	120초	있음	1080p	최장 길이

2026년 1분기, 주요 6개 영상 생성 모델 중 4개가 네이티브 오디오를 지원한다. 10초 이내 생성이 표준이 되고 있다.

제5장: VLA — 보고, 생각하고, 행동하는 AI

비전-언어-액션(VLA) 모델이란

멀티모달의 최전선이다. VLM(비전-언어 모델)이 "보고 말하는" AI라면, VLA는 "보고 말하고 물리적으로 행동하는" AI다.

카메라 입력 (로봇이 보는 것)

↓

텍스트 지시 ("접시를 식기세척기에 넣어")

↓

VLA 모델이 추론

↓

로봇 관절 각도·그리퍼 위치 출력 (실제 물리적 행동)

로봇의 행동을 "또 다른 언어"로 취급한다. 관절 각도를 텍스트 토큰으로 변환해, 인터넷 규모의 비전-언어 데이터와 함께 학습한다.

핵심 VLA 모델

RT-2 (Google DeepMind, 2023): VLA 패러다임을 확립. 새로운 시나리오에서 성공률이 RT-1의 32%에서 62%로 향상. "돌을 즉석 망치로 사용"하는 연쇄 추론까지 시연.

Helix (Figure AI, 2025): 최초의 휴머노이드 VLA. 상반신 35자유도 제어. 두 로봇이 협업하는 4분짜리 식기세척기 작업 — 자율 조작의 가장 복잡한 시연.

GR00T N1 (NVIDIA, 2025): 22억 파라미터, 오픈소스 VLA. 인간 시점 영상 + 실제/시뮬레이션 로봇 궤적으로 학습. GitHub에 공개.

AI 로보틱스 시장: $161억(2024) →$ 1,248억(2030). ICLR 2026에 164편의 VLA 논문이 제출되었다.

제6장: 실전 응용

의료

멀티모달 AI가 CT/MRI 영상 + 병리 이미지 + 의사 노트를 동시에 분석해 종합 진단을 내린다. Cleveland Clinic은 비정형 의료 기록을 멀티모달 AI로 처리해 진단 시간을 단축했다.

자율주행

카메라 + 라이다 + 레이더 + GPS 센서 데이터를 융합해 실시간 3D 환경 지도를 생성. 단일 센서의 사각지대를 다른 센서가 보완한다.

전자상거래 (비주얼 검색)

글로벌 비주얼 검색 시장: $400억(2024) →$ 1,500억(2032). 사진을 찍으면 유사 상품을 즉시 검색. 2026년은 "신기한 기능"에서 "필수 리테일 기능"으로의 전환점.

GUI 자동화 (Claude Computer Use)

Claude가 화면을 보고, 마우스를 움직이고, 버튼을 클릭하고, 텍스트를 입력한다. 레거시 앱, Electron 도구, 브라우저, PDF — 눈에 보이는 모든 애플리케이션에서 작동한다. Asana, Canva, DoorDash, Replit 등이 이미 채택.

콘텐츠 생성

텍스트 → 이미지(DALL-E 3, Midjourney), 텍스트 → 영상(Sora 2, Veo 3.1), 텍스트 → 음성(GPT-4o Mini TTS). 2026년에는 동기화된 오디오를 포함한 영상 생성이 표준이 되고 있다.

제7장: 한국 멀티모달 생태계

주요 플레이어

기업	모델/제품	현황
카카오	Kanana-v-4b-hybrid	한국어 하이브리드 멀티모달. 테이블·영수증 환각 최소화.
네이버	HyperCLOVA X SEED Omni	텍스트+이미지+음성 인식+음성 출력(옴니모달).
삼성	Galaxy S26 AI	텍스트·음성·이미지·영상 해석하는 멀티모달 에이전트.

KAIST — 한국 멀티모달 연구의 중심

2026년 한국 최초 독립 AI 대학 설립 (연 300명, 학부 100 + 대학원 200)
커리큘럼에 멀티모달 AI, 생성형 AI, 에이전트 기반 시스템 포함
멀티모달 AI 연구실(mm.kaist.ac.kr) 운영
CVPR 2026 멀티모달 공간지능 워크숍 주관

제8장: 도전과 미래

멀티모달 환각

비전 모델도 환각을 일으킨다. 이미지에 없는 물체를 "있다"고 말하거나, 이미지의 내용과 다른 설명을 생성한다. Google DeepMind의 FACTS 벤치마크에 따르면, 같은 모델이라도 텍스트 기반 사실성과 멀티모달 사실성의 점수가 극적으로 다르다 (예: Grok 4 검색 75.3% vs 멀티모달 25.7%).

연산 비용

2026년, AI 추론이 전체 컴퓨트의 2/3를 차지하게 되었다 (2023년 1/3에서). 추론 최적화 칩 시장만 $500억 이상. MoE 아키텍처, LoRA 파인튜닝, 양자화, 추측적 디코딩이 핵심 최적화 전략이다.

시장 전망

멀티모달 AI 시장: ~ $35억(2026) →$ 109억(2030) — 연평균 37% 성장
기업 애플리케이션의 ~60%가 2개 이상 모달리티를 사용하는 모델로 구축
기업의 47%가 일상 업무에 멀티모달 AI를 완전 통합

맺으며: 인간처럼 세상을 인식하는 AI

멀티모달 AI의 진화를 한 문장으로 요약하면:

AI가 텍스트만 이해하던 시대에서, 인간처럼 보고 듣고 말하고 행동하는 시대로.

텍스트만 (GPT-3, 2020)

↓

텍스트 + 이미지 (CLIP/GPT-4V, 2021~2023)

↓

텍스트 + 이미지 + 음성 (GPT-4o, 2024)

↓

텍스트 + 이미지 + 음성 + 영상 + 행동 (VLA, 2025~2026)

그리고 이 변화는 코어닷투데이의 기술 비전과 직결된다. 우리가 다루는 시각, 언어, 감성의 융합 — 그것이 바로 멀티모달 AI가 가능하게 하는 것이다.

참고 자료

Radford et al., "Learning Transferable Visual Models From Natural Language Supervision" (CLIP, 2021)
Dosovitskiy et al., "An Image is Worth 16x16 Words" (ViT, 2020)
Alayrac et al., "Flamingo: a Visual Language Model for Few-Shot Learning" (2022)
Liu et al., "Visual Instruction Tuning" (LLaVA, NeurIPS 2023)
Brohan et al., "RT-2: Vision-Language-Action Models" (2023)
Gemini 3.1 Pro — Google DeepMind
Claude Computer Use — Anthropic
NVIDIA GR00T N1
Helix — Figure AI
카카오 Kanana 멀티모달 — 한경
KAIST AI 대학 설립 — Korea Herald

기술2025.07.15