1개의 포스트
4억 장의 이미지-텍스트 쌍으로 학습하고, 한 번도 본 적 없는 ImageNet을 76.2% 정확도로 분류한 모델. DALL-E, Stable Diffusion, Midjourney — 모든 이미지 생성 AI의 눈이 된 CLIP 논문을 해부한다.