coredot.today
AI 영상 생성 전쟁 — Sora 앱 종료, Veo 3 부상, 그리고 월드 시뮬레이터의 시대
블로그로 돌아가기
SoraVeo 3AI 영상 생성월드 시뮬레이터KlingRunway디퓨전 트랜스포머딥페이크

AI 영상 생성 전쟁 — Sora 앱 종료, Veo 3 부상, 그리고 월드 시뮬레이터의 시대

2026년 3월 24일, OpenAI가 Sora 앱을 종료하고 디즈니 10억 달러 투자가 무산되었다. 같은 시기 Google Veo 3.1은 네이티브 4K+오디오로 시장을 장악하고, Runway는 '월드 모델'을 선보였다. 30일 잔존율 1%의 Sora부터 연 33.5억 달러 시장의 미래까지, AI 영상 생성 전쟁의 모든 것.

코어닷투데이2026-01-0136

들어가며: 2026년 3월 24일, AI 영상의 판이 뒤집히다

AI 영상 생성 전쟁

2026년 3월 24일, 두 가지 뉴스가 동시에 터졌다.

뉴스 1: OpenAI가 Sora 앱, API, 그리고 ChatGPT의 비디오 생성 기능을 모두 종료한다고 발표했다. Sora의 X 계정에는 "We're saying goodbye to the Sora app"이라는 메시지가 올라왔다.

뉴스 2: 같은 날, 디즈니가 OpenAI와의 10억 달러(약 1.4조 원) 투자 계약을 파기했다. 마블, 픽사, 스타워즈의 200개 이상 캐릭터를 Sora에 제공하려던 3년 계약이 돈이 오가기도 전에 무산되었다.

2024년 2월, 세계를 놀라게 한 Sora의 데모 영상이 공개된 지 정확히 2년. AI 영상 생성의 상징이었던 Sora가 퇴장하는 순간, AI 영상 시장은 새로운 국면에 접어들었다.

Google의 Veo 3.1은 네이티브 4K 해상도에 대사, 효과음, 배경음을 한 번에 생성하며 시장을 장악하고 있다. Runway는 실시간 탐색 가능한 "월드 모델"을 선보였다. 중국의 Kling 3.0은 4K 60fps에 6개 장면을 하나의 클립에 담는다. 그리고 르쿤(Yann LeCun)은 Meta를 떠나 10.3억 달러를 모금하며 "진짜 월드 모델"을 만들겠다고 선언했다.

이 글에서는 Sora의 흥망성쇠(제1장), Veo 3의 부상(제2장), 나머지 경쟁자들(제3장), 월드 시뮬레이터 개념(제4장), 기술 진화의 흐름(제5장), 산업적 영향(제6장), 그리고 남은 질문들(제7장)을 다룬다.


제1장: Sora의 흥망성쇠 — 2년간의 드라마

화려한 등장: "월드 시뮬레이터" (2024.02)

2024년 2월 15일, OpenAI가 공개한 Sora 데모 영상은 충격이었다. 도쿄 거리를 걷는 여성, 눈 덮인 마을의 드론 샷 — 당시 기준으로 현존하는 어떤 AI 영상보다 압도적이었다. OpenAI는 기술 보고서 제목을 "Video generation models as world simulators"로 정했다. 단순한 영상 생성이 아니라 "물리 세계의 시뮬레이터"를 만들겠다는 야심찬 선언이었다.

핵심 기술은 시공간 패치(spacetime patches). 비디오를 저차원 잠재 공간으로 압축한 뒤, 시공간 패치로 분해하여 트랜스포머 토큰처럼 처리한다. LLM이 텍스트 토큰을 다루듯, Sora는 비디오 패치를 다룬다. 이를 통해 다양한 해상도, 길이, 종횡비의 영상을 하나의 모델로 학습할 수 있었다.

출시와 열광 (2024.12 ~ 2025.09)

2024.02 Sora 데모 공개 세계 최초 고품질 텍스트-to-비디오. "월드 시뮬레이터" 선언.
2024.12 Sora v1 출시 ChatGPT Plus/Pro 사용자에게 공개. 미국/캐나다 한정.
2025.09 Sora 2 + 독립 앱 iOS 소셜 앱 출시. 24시간 내 App Store 사진/비디오 카테고리 1위.
2025.11 Android 출시 누적 다운로드 330만. 음성/배경음/립싱크 통합.
2025.12 디즈니 10억 달러 계약 마블, 픽사, 스타워즈 200+ 캐릭터 라이선스.
2026.03.24 Sora 앱 종료 발표 앱, API, ChatGPT 비디오 생성 모두 종료. 디즈니 계약 파기.

왜 종료되었는가? — 5가지 원인

1. 처참한 잔존율

a16z 파트너 Olivia Moore가 공유한 데이터:

Sora 앱 사용자 잔존율
Day 1
10%
Day 7
2%
Day 30
1%
Day 60
~0%

30일 잔존율 1%. 모바일 앱 업계에서 이 수치는 사실상 사망 선고다. 월간 다운로드도 330만(2025.11) → 110만(2026.02)으로 급감했다.

2. 컴퓨트 비용 대비 수익 부재

영상 생성은 텍스트 생성보다 수십 배 많은 GPU 자원을 소모한다. 그런데 인앱 결제 수익은 총 210만 달러(약 30억 원)에 불과했다. 직원들조차 출시 후 실제 컴퓨트 소모량에 놀랐다는 보도가 있다. 2025년 말 칩 부족 속에서 경영진이 생성 제한을 강화했다.

3. 딥페이크/저작권 위기

약한 안전장치로 인해 공인 딥페이크, 저작권 캐릭터(마리오, 피카츄, 나루토) 무단 생성, 불쾌한 콘텐츠가 범람했다. 일본 콘텐츠 무역 단체 CODA(스튜디오 지브리 포함)가 Sora 2 학습에 자사 콘텐츠 사용 중단을 공식 요청했다.

4. IPO 앞둔 전략적 판단

Sam Altman이 직원들에게 한 말: "사이드 퀘스트를 멈추고 핵심 사업(비즈니스/코딩)에 집중하자." 2026년 Q4 IPO를 앞둔 상황에서, 수익성 없는 영상 생성보다 엔터프라이즈와 생산성 도구에 자원을 집중하겠다는 결정.

5. 경쟁 환경 변화

Sora가 2024년 2월에 충격을 줬을 때는 독보적이었다. 2026년 3월에는? Veo 3.1(4K+오디오), Kling 3.0(4K 60fps 멀티샷), Runway Gen-4.5, Seedance 2.0 등이 동등하거나 우월한 품질을 더 낮은 비용으로 제공하고 있었다.

Sora 이후: 기술은 살아있다

Sam Altman은 Sora 연구팀이 로봇공학을 위한 월드 시뮬레이션 연구를 계속할 것이라고 밝혔다. 영상 생성 "제품"은 종료되지만, 물리 세계를 이해하는 "연구"는 지속된다.


제2장: Veo 3 — 소리까지 만드는 영상 AI

기술적 도약: 네이티브 오디오

Veo 3(2025년 5월)의 가장 큰 혁신: 영상과 음성을 한 번에 생성한다.

이전까지 AI 영상은 무음이었다. 대사, 효과음, 배경음은 별도 도구로 후처리해야 했다. Veo 3는 이 모든 것을 단일 패스에서 생성한다:

텍스트 프롬프트
Veo 3 (단일 모델)
영상 (4K)
대사/보이스오버
효과음
배경음

립싱크 정확도: 120ms 이내. 여러 화자의 대화 턴 전환도 지원한다. "두 사람이 카페에서 날씨에 대해 이야기하는 장면"이라고 입력하면, 영상 속 두 인물이 자연스럽게 대화하며 배경에는 카페 소음이 깔린다.

Veo 3.1 (2026.01): 프로페셔널급

4K 해상도 3840×2160, AI 영상 최초 상용 4K
9:16 세로 영상 네이티브 숏폼 콘텐츠 최적화
140초+ 최대 길이 8초 기본 + 20회 확장 연결
3장 참조 이미지 캐릭터/스타일 일관성 유지

MovieGenBench(1,003개 프롬프트)에서 텍스트 정합성, 시각 품질, 물리 사실성 모두 SOTA. VBench(355개)에서 이미지-to-비디오 최고 평가. 오디오-비디오 동기화(527개 프롬프트)에서도 최상위.

가격 정책

플랜가격Veo 접근
Gemini Advanced$19.99/월Veo 3.1 포함
Google AI Ultra$249.99/월최대 용량
API (Fast)$0.15/초개발자용
API (Standard)$0.40/초고품질
학생 무료$0미국/캐나다 대학생 (2026 학년도)

분당 약 9 9~24. 전통적 영상 제작($4,500/분) 대비 99% 이상 저렴하지만, AI 영상 도구 중에서는 프리미엄 포지셔닝이다.


제3장: 나머지 경쟁자들 — 7파전의 현황

경쟁 구도 한눈에

2026년 3월 AI 영상 생성 주요 플레이어
Google Veo 3.1 4K + 네이티브 오디오 벤치마크 SOTA. $0.15~0.40/초
Kling 3.0 4K 60fps 멀티샷 6샷 스토리보딩. 다국어 오디오
Runway Gen-4.5 물리 정확도 최강 벤치마크 1247점. $12/월~
Seedance 2.0 통합 오디오-비디오 바이트댄스. 중국 내 48시간 바이럴
Wan 2.1 (알리바바) 오픈소스 1위 VBench 86.22%. Apache 2.0
Pika 2.5 창의적 효과 특화 폭발/용해/케이크화. $8/월~

Kling 3.0 (Kuaishou, 2026.02)

중국 콰이쇼우의 Kling은 가장 빠르게 진화하는 모델이다. 2.5 → 2.6 → 3.0이 6개월 만에 나왔다.

  • 4K 해상도, 60fps — Veo 3.1과 함께 유일한 4K+고프레임
  • 멀티샷 스토리보딩: 최대 6개 장면을 하나의 클립에 자연스러운 컷으로 연결
  • 다국어 오디오: 영어, 중국어, 일본어, 한국어, 스페인어
  • 블라인드 테스트에서 Seedance 1.0 대비 285% 승률

Runway Gen-4.5 + GWM-1 (2025.12)

Runway는 "영상 생성 도구"에서 "월드 모델"로 포지셔닝을 전환했다.

Gen-4.5: Artificial Analysis 벤치마크 1247점(최고). 물리적 정확도(무게, 운동량, 유체 역학)가 독보적. 네이티브 오디오, 멀티샷 시퀀싱, 1분까지 캐릭터 일관성 유지.

GWM-1 (General World Model): 오토리그레시브 아키텍처, 24fps/720p 실시간. 3가지 변형:

GWM Worlds

탐색 가능한 3D 환경 생성
물리/기하학 시뮬레이션
게임/가상현실 응용

GWM Robotics

로봇 학습용 합성 데이터
반사실적 궤적 생성
정책 평가 시뮬레이션

Seedance 2.0 (ByteDance, 2026.02)

바이트댄스의 반격. 출시 48시간 만에 웨이보에서 바이럴. 특징:

  • 통합 멀티모달 오디오-비디오 공동 생성 아키텍처
  • 시네마틱 출력 + 네이티브 오디오 + 실제 물리
  • 감독 수준의 카메라 컨트롤
  • 15초, 멀티샷, 자연스러운 컷 전환
  • 현재 중국 국내 앱(도우인, 더우바오 등)에서만 사용 가능

Wan 2.1 (알리바바) — 오픈소스의 왕

Apache 2.0 라이선스로 완전 오픈소스. VBench 86.22%(Sora의 84.28%를 넘는 1위). 4개 모델(T2V-14B, T2V-1.3B, I2V-14B-720P, I2V-14B-480P)을 모두 공개했다.

Wan 2.1-VACE(2025.05): 최초의 오픈소스 영상 생성+편집 통합 솔루션.


제4장: 월드 시뮬레이터 — AI 영상의 진짜 목적지

"영상 생성"을 넘어선 야심

OpenAI가 Sora를 "월드 시뮬레이터"라고 불렀을 때, 많은 사람이 마케팅 수사라고 생각했다. 하지만 2026년 현재, 이 개념은 AI 연구의 가장 뜨거운 전장 중 하나가 되었다.

"월드 시뮬레이터"란 무엇인가? 단순히 예쁜 영상을 만드는 것이 아니라, 물리 법칙을 이해하고, 인과관계를 추론하며, 에이전트의 행동에 반응하는 시뮬레이션 환경을 생성하는 것이다.

영상 생성 도구
월드 시뮬레이터
"토끼가 들판을 뛰는 영상"
"토끼가 물리 법칙에 따라 뛰고,
바람이 불면 풀이 휘고,
사용자가 돌을 던지면 토끼가 반응하는
인터랙티브 환경"

Google Genie 3: 실시간 인터랙티브 월드

Google DeepMind의 Genie 3(2025)는 이 비전에 가장 가까이 다가갔다:

  • 실시간 24fps/720p 인터랙티브 월드 모델
  • 지속적 3D 환경 생성 (들어가서 돌아다닐 수 있다)
  • 프롬프트 가능한 월드 이벤트 (날씨 변경, 객체/캐릭터 추가)
  • ~1분의 시각적 기억 (과거 장면과의 일관성 유지)
  • Google AI Ultra 구독자에게 2026년 초 제공

르쿤의 반란: AMI Labs와 JEPA

2026년 3월, AI 역사의 한 페이지가 쓰였다. 얀 르쿤(Yann LeCun)이 Meta를 떠나 AMI Labs(Advanced Machine Intelligence)를 창업하고 10.3억 달러(약 1.5조 원)를 모금했다.

르쿤의 핵심 주장:

"LLM은 근본적으로 물리 세계를 이해할 수 없다. 텍스트/이미지를 생성하는 대신 추상적 표현을 학습하는 월드 모델이 로봇공학과 자율주행에 필수적이다."

그의 접근법은 JEPA(Joint Embedding Predictive Architecture) — 비디오, 오디오, 센서 데이터에서 추상적 표현을 학습하되, 픽셀이나 토큰을 직접 생성하지 않는다. Sora, Veo와는 근본적으로 다른 패러다임이다.

월드 모델의 응용: 영상을 넘어서

응용 분야현재 진행 상황
로봇공학Runway GWM Robotics: 로봇 학습용 합성 데이터. OpenAI Sora 팀: 월드 시뮬레이션 → 로봇 연구 전환
자율주행AMI Labs: 4D 월드 모델로 자율주행 시나리오 생성
게임Runway GWM Worlds: 탐색 가능한 게임 환경 실시간 생성
영화 프리비즈Genie 3: 감독이 장면을 실시간으로 탐색하며 구도 결정

제5장: 기술 진화의 흐름

아키텍처: U-Net → DiT → 오토리그레시브

AI 영상 생성 아키텍처 진화
2022-2023 U-Net 기반 디퓨전 — Stable Video Diffusion, 초기 모델들. 해상도/길이 제한.
2024 Diffusion Transformer (DiT) — Sora, Wan 2.1. U-Net을 트랜스포머로 대체. 시공간 어텐션으로 더 나은 일관성.
2025 DiT + Flow Matching — Wan 2.1, Lumina. 학습 안정성과 속도 개선. 3D VAE 결합 (Kling).
2025-2026 오토리그레시브 + 디퓨전 — MAGI-1, Runway GWM-1. 청크 단위 생성으로 실시간/스트리밍 가능.

2025년의 결정적 전환: 오디오 통합

2024년까지 AI 영상은 무음이었다. 2025년에 모든 것이 바뀌었다:

모델오디오 통합 시점특징
Veo 32025.05최초 네이티브 오디오 (대사, 효과음, 배경음)
Sora 22025.09음성, 배경 사운드스케이프, 립싱크
Kling 2.62025.12단일 패스 오디오-비디오 동시 생성
Kling 3.02026.02다국어 오디오 (5개 언어)
Seedance 2.02026.02통합 멀티모달 공동 생성 아키텍처
Runway Gen-4.52025.12네이티브 오디오 추가

해상도와 길이의 진화

AI 영상 해상도 진화 (2024→2026)
Sora v1 (2024.12)
1080p / 1분
Veo 2 (2024.12)
4K / 수 초
Sora 2 (2025.09)
720~1024p / 4~25초
Veo 3.1 (2026.01)
4K / 140초+ 최고
Kling 3.0 (2026.02)
4K 60fps / 15초 멀티샷

제6장: 산업적 영향 — 누가 AI 영상을 쓰는가

시장 규모

$9.5억 2026년 AI 영상 생성 시장 전년 대비 20% 성장
$33.5억 2034년 전망 CAGR 18.8%
91% 제작 비용 절감 $4,500/분 → $400/분
75% AI 영상 마케팅 비율 2026년 말 예측

할리우드: 조심스러운 채택

주요 스튜디오 제작 예산의 3% 미만이 생성형 AI에 투입되고 있다. 하지만 운영 비용의 ~7%는 이미 AI 도구로 전환되었다.

주요 활용:

  • 프리비주얼라이제이션: 감독이 촬영 전 장면을 AI로 시각화
  • 배경 생성: 특히 판타지/SF 장르의 원경
  • 군중 장면: 엑스트라 수백 명 대신 AI 생성
  • 스토리보딩: 아이디어를 빠르게 영상으로 시각화

주목할 프로젝트: 생성형 AI로 대부분 제작된 애니메이션 영화가 2026년 5월 칸 영화제 데뷔를 목표로 진행 중. 일반적 3년 대신 9개월, 예산 3천만 달러 이하.

딥페이크 규제

법률/규정시행 시기핵심 내용
TAKE IT DOWN Act (미국)2025.05비동의 AI 친밀 이미지 게시 범죄화. 48시간 내 삭제 의무
DEFIANCE Act (미국)2026.01연방 소송권, 손해배상 15만 15만~25만
EU AI Act2025~딥페이크 공개 의무
덴마크 저작권법2025초상을 지적재산으로 취급
미국 45개 주2025 중반까지각종 딥페이크 관련 법안 시행

딥페이크 사건은 2024년 257% 급증했고, 2025년 1분기만으로 2024년 전체를 19% 초과했다.


제7장: AI 영상의 미래 — 남은 질문들

질문 1: 오픈소스가 승리할 것인가?

알리바바의 Wan 2.1이 VBench에서 Sora를 넘었다. MAGI-1(Sand AI)은 24B 파라미터 오픈소스로 Kling 급 품질을 달성했다. LLM에서 벌어진 오픈소스 혁명이 영상 생성에서도 반복될 가능성이 높다.

질문 2: 월드 모델은 언제 실용화되는가?

Runway GWM-1과 Google Genie 3가 프로토타입을 보여줬지만, 아직 "진짜 월드 시뮬레이터"에는 거리가 있다. 한계:

  • 제한된 에이전트 행동 공간
  • 불완전한 물리 정확도
  • 수 분 이내의 상호작용 시간 제한
  • 멀티 에이전트 상호작용의 어려움

르쿤의 AMI Labs가 10.3억 달러로 추구하는 JEPA 기반 접근이 이 한계를 넘을 수 있을지가 2026~2027년의 핵심 관전 포인트다.

질문 3: Sora 없는 OpenAI는 괜찮은가?

Sora의 종료는 OpenAI에게 단기적으로 옳은 결정이었을 수 있다. 수익성 없는 사업을 정리하고 핵심(GPT, 코딩, 에이전트)에 집중하는 것이니까. 하지만 장기적으로, 영상/월드 시뮬레이션은 AGI로 가는 핵심 경로 중 하나다. OpenAI가 이 분야를 완전히 포기한 것이 아니라 "연구"로 전환한 것은, 이 기술의 장기적 가치를 인정하는 것이다.


맺으며: 영상 생성에서 세계 이해로

Sora의 퇴장은 하나의 시대가 끝났음을 알린다. "AI로 예쁜 영상을 만든다"는 단계는 지났다. 모든 주요 플레이어가 4K, 네이티브 오디오, 분 단위 길이를 달성한 지금, 경쟁은 새로운 차원으로 이동하고 있다.

그 차원이 월드 시뮬레이터다. 영상을 "생성"하는 것이 아니라 세계를 "이해"하고 "시뮬레이션"하는 것. 이것이 로봇공학, 자율주행, 게임, 그리고 궁극적으로 AGI와 연결된다.

2026년의 교훈: 기술의 우위만으로는 부족하다. Sora는 기술적으로 탁월했지만, 비즈니스 모델(30일 잔존율 1%), 안전 장치(딥페이크 범람), 시장 타이밍(경쟁자들의 빠른 추격)에서 실패했다. 반면 Veo 3는 Google의 거대한 생태계(YouTube, Gemini, Cloud)와 결합하여 지속 가능한 포지션을 잡았다.

AI 영상의 미래는, 30일 잔존율 1%의 소비자 앱이 아니라, 모든 산업에 스며드는 인프라가 되는 것이다. 그 인프라의 핵심에 월드 시뮬레이터가 있다.


참고 자료: