
CLIP 논문 해부: 이미지와 언어를 잇는 다리를 놓다
4억 장의 이미지-텍스트 쌍으로 학습하고, 한 번도 본 적 없는 ImageNet을 76.2% 정확도로 분류한 모델. DALL-E, Stable Diffusion, Midjourney — 모든 이미지 생성 AI의 눈이 된 CLIP 논문을 해부한다.

4억 장의 이미지-텍스트 쌍으로 학습하고, 한 번도 본 적 없는 ImageNet을 76.2% 정확도로 분류한 모델. DALL-E, Stable Diffusion, Midjourney — 모든 이미지 생성 AI의 눈이 된 CLIP 논문을 해부한다.

당신에게 사진 한 장을 보여준다. 골든 리트리버가 공원에서 뛰고 있다. 그리고 1,000개의 문장을 준다: "사막의 선인장", "바다의 등대", "공원에서 뛰는 골든 리트리버"...
당신은 0.1초 만에 정답을 고른다. 왜? 사진과 문장의 의미를 이해하기 때문이다.
2021년까지, 컴퓨터 비전 AI는 이것을 할 수 없었다. 정확히 말하면, 학습한 1,000가지 카테고리 안에서만 사진을 분류할 수 있었다. "골든 리트리버"는 맞추지만, 학습 데이터에 없는 "코기"는 인식 불가. 새 카테고리를 추가하려면 수천 장의 레이블 데이터를 모으고 다시 학습해야 했다.
2021년 2월, OpenAI가 이 제한을 깨뜨렸다. **CLIP (Contrastive Language-Image Pre-training)**은 인터넷에서 수집한 4억 개의 이미지-텍스트 쌍으로 학습하여, 한 번도 본 적 없는 ImageNet 데이터셋에서 76.2% 정확도를 달성했다 — ResNet-50이 ImageNet에서 직접 학습해 달성한 76.1%와 동일한 수치.
이것이 왜 중요한가? CLIP은 DALL-E, Stable Diffusion, Midjourney의 **"눈"**이 되었고, 멀티모달 AI 시대를 열었으며, 컴퓨터 비전의 패러다임을 영구히 바꿨다.
ImageNet은 스탠포드의 Fei-Fei Li가 2008년 시작한 프로젝트다. 처음 계산했을 때, 소규모 팀이 수집된 이미지에 레이블을 붙이려면 19년이 걸릴 것으로 나왔다. Amazon Mechanical Turk의 크라우드소싱으로 전환한 뒤에도 2년 반이 걸렸다. 167개국 49,000명의 작업자가 1억 6천만 장의 후보 이미지를 필터링하고 레이블링했다.
결과: 21,841개 카테고리, 1,420만 장의 이미지. 각 이미지에 최소 3번의 검증.
ImageNet에서 학습한 모델은 1,000개 카테고리만 인식한다. 새 카테고리를 추가하려면:
2017년, Zero-Shot으로 ImageNet을 시도한 Visual N-Grams는 11.5% 정확도 — 1,000개 중 무작위(0.1%)보다는 낫지만, 실용성은 제로.
GPT와 BERT가 인터넷 텍스트로 사전학습하면 다양한 과제에 전이된다는 것을 증명했다. CLIP의 핵심 질문: 인터넷의 이미지-텍스트 쌍으로 사전학습하면, 시각에서도 같은 일이 가능한가?
CLIP의 학습 방법을 비유하면 카드 매칭 게임이다:
학습이 끝난 CLIP으로 새 이미지를 분류하는 과정:
새 클래스를 추가하고 싶으면? 그 클래스의 이름을 쓰면 된다. "a photo of a corgi"를 추가하면 끝. 재학습 불필요. 이것이 Zero-Shot의 핵심이다.
논문은 ImageNet에서 클래스당 80개의 프롬프트 템플릿을 만들고 앙상블하여 약 3.5% 성능 향상을 달성했다. 예: "a photo of a big {class}", "a satellite photo of {class}", "a blurry photo of {class}" 등.
OpenAI가 인터넷에서 수집한 WIT(WebImageText) 데이터셋:
11.5%에서 76.2%로. ImageNet 학습 이미지를 단 한 장도 보지 않고 ResNet-50의 지도 학습 성능과 동일. 27개 데이터셋 평가에서 16개에서 지도 학습 기반 ResNet-50을 능가.
CLIP의 가장 놀라운 특성 중 하나:
ImageNet에서 학습한 모델이 스케치나 적대적 변형에 취약한 반면, CLIP은 훨씬 더 강건하다. 다양한 인터넷 데이터에서 학습했기 때문.

CLIP이 텍스트와 이미지를 같은 공간에 매핑하는 법을 배웠기 때문에, 텍스트에서 이미지를 생성하는 것이 가능해졌다.
DALL-E 2 (2022.4): 사용자의 텍스트 프롬프트를 CLIP 텍스트 인코더로 인코딩 → 디퓨전 모델이 이 임베딩을 기반으로 이미지 생성. CLIP의 의미 정렬이 "텍스트 설명과 일치하는 이미지 생성"을 가능하게 했다.
Stable Diffusion (2022.8): CLIP의 ViT-L/14 텍스트 인코더(openai/clip-vit-large-patch14)를 직접 사용. 사용자 프롬프트가 CLIP으로 인코딩되어 디퓨전 과정을 안내한다. SDXL은 CLIP-L + OpenCLIP-BigG를 결합.
Midjourney: CLIP 개념을 이미지 생성 시스템의 핵심 구성 요소로 사용.
CLIP의 핵심 원리 — 이미지와 텍스트를 공유 표현 공간에 정렬 — 는 이후 모든 멀티모달 AI의 기초가 되었다:
연구자들이 FairFace 분류에 "animal", "gorilla", "thief", "criminal", "suspicious person" 카테고리를 추가하자:
CLIP의 편향은 CLIP을 사용하는 모든 모델로 전파된다:
| 모델 | 개발사 | 핵심 차이 | ImageNet ZS |
|---|---|---|---|
| CLIP (2021) | OpenAI | 대조 학습, 4억 쌍 | 76.2% |
| ALIGN (2021) | 더 많은 데이터(18억), 더 노이즈 | 76.4% | |
| SigLIP (2023) | 시그모이드 손실 → 배치 효율 ↑ | 84.5% (Large) | |
| EVA-CLIP-18B (2023) | BAAI | 180억 파라미터, 최대 오픈소스 | 80.7% (27개 평균) |
| BLIP-2 (2023) | Salesforce | 생성도 가능 (Q-Former) | - |
| Florence-2 (2024) | Microsoft | 통합 프롬프트 → 탐지/캡션/분류 | 93.2% (Cars) |
CLIP 논문의 핵심 통찰을 한 문장으로: 자연어는 가장 확장 가능한 시각 감독(supervision) 형태다.
인간이 수동으로 레이블을 붙이는 것(ImageNet 방식)은 비싸고, 좁고, 느리다. 인터넷에 자연스럽게 존재하는 이미지-텍스트 쌍(CLIP 방식)은 싸고, 넓고, 빠르다. 4억 쌍의 "노이즈 있는" 데이터가 140만 장의 "깨끗한" 레이블을 이겼다.
이것은 GPT-3 글에서 다뤘던 것과 동일한 서사다: 규모와 다양성이 정밀함을 이긴다. GPT-3가 인터넷 텍스트로 범용 언어 모델을 만들었듯, CLIP은 인터넷 이미지-텍스트 쌍으로 범용 비전 모델을 만들었다.
5년이 지난 2025년, CLIP의 후예들(SigLIP, EVA-CLIP, Florence-2)이 성능을 개선하고 있지만, 핵심 원리는 변하지 않았다. 이미지와 텍스트를 같은 공간에 매핑한다. 그리고 그 공간 위에서 모든 멀티모달 AI가 작동한다 — DALL-E가 이미지를 생성할 때, Claude가 사진을 이해할 때, 자율주행차가 장면을 인식할 때.
코어닷투데이의 AI 제품에서도 이 원리는 핵심이다. AI 아르스 키오스크가 사용자의 얼굴 표정을 인식하고 적절한 경험을 선택할 때, Sharp-PINN이 검사 이미지에서 결함을 탐지할 때 — 그 기반에는 "이미지와 언어를 잇는 다리"가 있다. CLIP이 2021년에 놓은 바로 그 다리다.