coredot.today
CLIP 논문 해부: 이미지와 언어를 잇는 다리를 놓다
블로그로 돌아가기
CLIP멀티모달 AI대조 학습Zero-ShotDALL-E

CLIP 논문 해부: 이미지와 언어를 잇는 다리를 놓다

4억 장의 이미지-텍스트 쌍으로 학습하고, 한 번도 본 적 없는 ImageNet을 76.2% 정확도로 분류한 모델. DALL-E, Stable Diffusion, Midjourney — 모든 이미지 생성 AI의 눈이 된 CLIP 논문을 해부한다.

코어닷투데이2025-07-1525

들어가며: 한 번도 본 적 없는 사진을 맞추는 AI

CLIP: 이미지와 텍스트를 연결하는 매칭 게임

당신에게 사진 한 장을 보여준다. 골든 리트리버가 공원에서 뛰고 있다. 그리고 1,000개의 문장을 준다: "사막의 선인장", "바다의 등대", "공원에서 뛰는 골든 리트리버"...

당신은 0.1초 만에 정답을 고른다. 왜? 사진과 문장의 의미를 이해하기 때문이다.

2021년까지, 컴퓨터 비전 AI는 이것을 할 수 없었다. 정확히 말하면, 학습한 1,000가지 카테고리 안에서만 사진을 분류할 수 있었다. "골든 리트리버"는 맞추지만, 학습 데이터에 없는 "코기"는 인식 불가. 새 카테고리를 추가하려면 수천 장의 레이블 데이터를 모으고 다시 학습해야 했다.

2021년 2월, OpenAI가 이 제한을 깨뜨렸다. **CLIP (Contrastive Language-Image Pre-training)**은 인터넷에서 수집한 4억 개의 이미지-텍스트 쌍으로 학습하여, 한 번도 본 적 없는 ImageNet 데이터셋에서 76.2% 정확도를 달성했다 — ResNet-50이 ImageNet에서 직접 학습해 달성한 76.1%와 동일한 수치.

이것이 왜 중요한가? CLIP은 DALL-E, Stable Diffusion, Midjourney의 **"눈"**이 되었고, 멀티모달 AI 시대를 열었으며, 컴퓨터 비전의 패러다임을 영구히 바꿨다.


제1장: 왜 CLIP이 필요했는가 — ImageNet의 한계

14만 명이 2년 반 동안 만든 데이터셋

ImageNet은 스탠포드의 Fei-Fei Li가 2008년 시작한 프로젝트다. 처음 계산했을 때, 소규모 팀이 수집된 이미지에 레이블을 붙이려면 19년이 걸릴 것으로 나왔다. Amazon Mechanical Turk의 크라우드소싱으로 전환한 뒤에도 2년 반이 걸렸다. 167개국 49,000명의 작업자가 1억 6천만 장의 후보 이미지를 필터링하고 레이블링했다.

결과: 21,841개 카테고리, 1,420만 장의 이미지. 각 이미지에 최소 3번의 검증.

"좁은 전문가" 문제

⚠️
CLIP 논문의 표현: "최첨단 컴퓨터 비전 시스템은 고정된 사전 결정 객체 카테고리 세트를 예측하도록 학습된다. 이 제한된 형태의 감독은 일반성과 유용성을 제한하는데, 다른 시각적 개념을 지정하려면 추가 레이블 데이터가 필요하기 때문이다."

ImageNet에서 학습한 모델은 1,000개 카테고리만 인식한다. 새 카테고리를 추가하려면:

  1. 수천 장의 새 이미지 수집
  2. 인간이 레이블링
  3. 모델 재학습 (GPU, 시간, 비용)

2017년, Zero-Shot으로 ImageNet을 시도한 Visual N-Grams는 11.5% 정확도 — 1,000개 중 무작위(0.1%)보다는 낫지만, 실용성은 제로.

NLP가 보여준 길

GPT와 BERT가 인터넷 텍스트로 사전학습하면 다양한 과제에 전이된다는 것을 증명했다. CLIP의 핵심 질문: 인터넷의 이미지-텍스트 쌍으로 사전학습하면, 시각에서도 같은 일이 가능한가?


제2장: CLIP의 작동 원리 — "매칭 게임"

대조 학습: 32,768장의 카드 매칭

CLIP의 학습 방법을 비유하면 카드 매칭 게임이다:

  1. 32,768장의 카드가 있다 (배치 크기)
  2. 각 카드의 앞면에 사진, 뒷면에 설명
  3. 모든 사진을 한 테이블에, 모든 설명을 다른 테이블에 펼친다
  4. 각 사진에 맞는 설명을 찾아 매칭한다
CLIP의 이중 인코더 구조
이미지 인코더 ViT-L/14 또는 ResNet 사진 → 512차원 벡터
텍스트 인코더 12층 Transformer (GPT-2 구조) 문장 → 512차원 벡터
공유 임베딩 공간 (512차원) 코사인 유사도로 매칭 맞는 쌍: 유사도 ↑ / 틀린 쌍: 유사도 ↓

임베딩 공간: "지도" 비유

💡
임베딩 = 의미의 지도. 이미지든 텍스트든, 모든 것을 512개 숫자의 좌표로 변환한다. 이 지도에서 "강아지" 사진과 "a dog" 텍스트는 가까이, "자동차" 사진과 "a dog"은 멀리 위치한다. CLIP의 핵심 혁신: 이미지와 텍스트가 같은 지도에 존재한다.

Zero-Shot 분류: 클래스 이름만 쓰면 끝

학습이 끝난 CLIP으로 새 이미지를 분류하는 과정:

이미지 입력이미지 인코더이미지 벡터
↓ 코사인 유사도 비교
"a photo of a dog" "a photo of a cat" "a photo of a car"
가장 유사한 텍스트의 클래스 = 예측

새 클래스를 추가하고 싶으면? 그 클래스의 이름을 쓰면 된다. "a photo of a corgi"를 추가하면 끝. 재학습 불필요. 이것이 Zero-Shot의 핵심이다.

논문은 ImageNet에서 클래스당 80개의 프롬프트 템플릿을 만들고 앙상블하여 약 3.5% 성능 향상을 달성했다. 예: "a photo of a big {class}", "a satellite photo of {class}", "a blurry photo of {class}" 등.


제3장: 학습 데이터와 비용

WIT: 4억 개의 이미지-텍스트 쌍

OpenAI가 인터넷에서 수집한 WIT(WebImageText) 데이터셋:

4억 이미지-텍스트 쌍 인터넷 공개 소스에서 수집
50만 쿼리 용어 영어 Wikipedia 기준 커버리지
32,768 배치 크기 충분한 네거티브 쌍 제공
12일 학습 기간 (ViT-L/14) V100 256대

제4장: 결과 — 보지 못한 데이터에서 76.2%

Zero-Shot으로 ImageNet 정복

ImageNet Zero-Shot 정확도 진화
Visual N-Grams (2017)
11.5%
ResNet-50 (지도학습)
76.1%
CLIP ViT-L/14 (Zero-Shot)
76.2% 🏆

11.5%에서 76.2%로. ImageNet 학습 이미지를 단 한 장도 보지 않고 ResNet-50의 지도 학습 성능과 동일. 27개 데이터셋 평가에서 16개에서 지도 학습 기반 ResNet-50을 능가.

분포 변화에 대한 강건성

CLIP의 가장 놀라운 특성 중 하나:

60.2% CLIP - ImageNet Sketch ResNet: 25.2% (2.4배 차이)
77.1% CLIP - 적대적 예제 ResNet: 2.7% (28배 차이!)

ImageNet에서 학습한 모델이 스케치나 적대적 변형에 취약한 반면, CLIP은 훨씬 더 강건하다. 다양한 인터넷 데이터에서 학습했기 때문.

CLIP이 실패한 곳

  • 세밀한 분류: 꽃의 종, 비행기 모델 구별 — Flowers102, FGVCAircraft에서 10%+ 저조
  • 추상/체계적 과제: 객체 수 세기, 공간 관계 이해
  • MNIST: 손글씨 숫자 인식 88% — 놀라울 정도로 낮음. CLIP 학습 데이터에 MNIST 같은 이미지가 거의 없었기 때문
  • 생성 불가: 매칭/검색만 가능, 캡션 생성이나 이미지 생성은 불가

제5장: CLIP이 열어젖힌 세계

CLIP에서 DALL-E까지: 텍스트로 이미지를 만드는 시대

DALL-E, Stable Diffusion, Midjourney의 "눈"

CLIP이 텍스트와 이미지를 같은 공간에 매핑하는 법을 배웠기 때문에, 텍스트에서 이미지를 생성하는 것이 가능해졌다.

DALL-E 2 (2022.4): 사용자의 텍스트 프롬프트를 CLIP 텍스트 인코더로 인코딩 → 디퓨전 모델이 이 임베딩을 기반으로 이미지 생성. CLIP의 의미 정렬이 "텍스트 설명과 일치하는 이미지 생성"을 가능하게 했다.

Stable Diffusion (2022.8): CLIP의 ViT-L/14 텍스트 인코더(openai/clip-vit-large-patch14)를 직접 사용. 사용자 프롬프트가 CLIP으로 인코딩되어 디퓨전 과정을 안내한다. SDXL은 CLIP-L + OpenCLIP-BigG를 결합.

Midjourney: CLIP 개념을 이미지 생성 시스템의 핵심 구성 요소로 사용.

🎯
CLIP의 진정한 유산: CLIP 자체는 이미지를 생성하지 못한다. 하지만 CLIP이 구축한 "텍스트와 이미지가 같은 공간에 사는" 세계가 없었다면, DALL-E도 Stable Diffusion도 Midjourney도 존재하지 않았을 것이다.

멀티모달 AI의 시작점

CLIP의 핵심 원리 — 이미지와 텍스트를 공유 표현 공간에 정렬 — 는 이후 모든 멀티모달 AI의 기초가 되었다:

  • LLaVA (NeurIPS 2023): 동결된 CLIP 비전 인코더를 LLM(Vicuna)에 연결. CLIP의 시각 표현이 LLM의 "눈" 역할. GPT-4 대비 85.1% 상대 성능
  • GPT-4V (2023.9): ChatGPT에 시각 능력 추가
  • Gemini, Claude Vision: CLIP보다 정교한 아키텍처이지만, 동일한 핵심 통찰에 기반

제6장: 편향과 안전 — CLIP의 어두운 면

"범죄" 라벨 실험

연구자들이 FairFace 분류에 "animal", "gorilla", "thief", "criminal", "suspicious person" 카테고리를 추가하자:

흑인 사진 → 비인간 카테고리 오분류율~14%
남성 → 범죄 관련 클래스 오분류율16.5%
20세 미만 → 범죄 관련 클래스 오분류율18%
70세 이상 → 범죄 관련 클래스 오분류율0%

하류 모델로의 편향 전파

CLIP의 편향은 CLIP을 사용하는 모든 모델로 전파된다:

  • DALL-E 2: "CEO" 프롬프트로 백인 남성을 97% 생성
  • Stable Diffusion: 남성 이미지를 남성 지배 직업으로 64% 분류 (여성은 28%)
  • 빈곤, 장애, 이성애규범성에 관한 고정관념이 두 모델 모두에서 지속
⚠️
CLIP 논문 자체의 경고: "인터넷으로 학습한 모델은 인터넷 규모의 편향을 갖는다." 이것은 [AI 정렬](/blog/ai-alignment-safety)과 [HITL](/blog/human-in-the-loop) 연구가 멀티모달 AI에서도 필수적인 이유다.

제7장: CLIP의 후예들 — 유사 모델 비교

모델개발사핵심 차이ImageNet ZS
CLIP (2021)OpenAI대조 학습, 4억 쌍76.2%
ALIGN (2021)Google더 많은 데이터(18억), 더 노이즈76.4%
SigLIP (2023)Google시그모이드 손실 → 배치 효율 ↑84.5% (Large)
EVA-CLIP-18B (2023)BAAI180억 파라미터, 최대 오픈소스80.7% (27개 평균)
BLIP-2 (2023)Salesforce생성도 가능 (Q-Former)-
Florence-2 (2024)Microsoft통합 프롬프트 → 탐지/캡션/분류93.2% (Cars)
🔍 CLIP (판별적)
이미지-텍스트 매칭/검색
Zero-Shot 분류
캡션 생성 불가
빠르고 효율적
✍️ BLIP-2 (생성적)
이미지 설명 생성 가능
시각 질의응답 가능
CLIP 인코더를 내부적으로 사용
더 무겁지만 더 유연

제8장: 2025년의 CLIP — 어디서 쓰이고 있나

91.1% 자율주행 장면 분류 (F1) GPT-4o보다 높은 성능
30,000+ 인용 수 역대 가장 많이 인용된 AI 논문 중 하나
CLIPort 로보틱스 조작 "파란 컵 옆의 빨간 블록을 집어라"
BiomedCLIP 의료 영상 방사선·병리 영상 분석
  • 이미지 검색: 키워드 대신 자연어로 이미지 검색 — "석양 아래 해변에서 뛰는 강아지"
  • 콘텐츠 모더레이션: 유해 이미지를 카테고리별 분류기 없이 Zero-Shot으로 탐지
  • 이커머스: 자연어로 상품 카탈로그 검색 — 카테고리 필터 대체
  • 창작 도구: Midjourney, DALL-E 3, SD3 모두 CLIP 또는 CLIP 파생 텍스트 인코더 사용

맺으며: "자연어가 가장 확장 가능한 시각 감독"

CLIP 논문의 핵심 통찰을 한 문장으로: 자연어는 가장 확장 가능한 시각 감독(supervision) 형태다.

인간이 수동으로 레이블을 붙이는 것(ImageNet 방식)은 비싸고, 좁고, 느리다. 인터넷에 자연스럽게 존재하는 이미지-텍스트 쌍(CLIP 방식)은 싸고, 넓고, 빠르다. 4억 쌍의 "노이즈 있는" 데이터가 140만 장의 "깨끗한" 레이블을 이겼다.

이것은 GPT-3 글에서 다뤘던 것과 동일한 서사다: 규모와 다양성이 정밀함을 이긴다. GPT-3가 인터넷 텍스트로 범용 언어 모델을 만들었듯, CLIP은 인터넷 이미지-텍스트 쌍으로 범용 비전 모델을 만들었다.

5년이 지난 2025년, CLIP의 후예들(SigLIP, EVA-CLIP, Florence-2)이 성능을 개선하고 있지만, 핵심 원리는 변하지 않았다. 이미지와 텍스트를 같은 공간에 매핑한다. 그리고 그 공간 위에서 모든 멀티모달 AI가 작동한다 — DALL-E가 이미지를 생성할 때, Claude가 사진을 이해할 때, 자율주행차가 장면을 인식할 때.

코어닷투데이의 AI 제품에서도 이 원리는 핵심이다. AI 아르스 키오스크가 사용자의 얼굴 표정을 인식하고 적절한 경험을 선택할 때, Sharp-PINN이 검사 이미지에서 결함을 탐지할 때 — 그 기반에는 "이미지와 언어를 잇는 다리"가 있다. CLIP이 2021년에 놓은 바로 그 다리다.