
AI 영상 생성 전쟁 — Sora 앱 종료, Veo 3 부상, 그리고 월드 시뮬레이터의 시대
2026년 3월 24일, OpenAI가 Sora 앱을 종료하고 디즈니 10억 달러 투자가 무산되었다. 같은 시기 Google Veo 3.1은 네이티브 4K+오디오로 시장을 장악하고, Runway는 '월드 모델'을 선보였다. 30일 잔존율 1%의 Sora부터 연 33.5억 달러 시장의 미래까지, AI 영상 생성 전쟁의 모든 것.

2026년 3월 24일, OpenAI가 Sora 앱을 종료하고 디즈니 10억 달러 투자가 무산되었다. 같은 시기 Google Veo 3.1은 네이티브 4K+오디오로 시장을 장악하고, Runway는 '월드 모델'을 선보였다. 30일 잔존율 1%의 Sora부터 연 33.5억 달러 시장의 미래까지, AI 영상 생성 전쟁의 모든 것.

2026년 3월 24일, 두 가지 뉴스가 동시에 터졌다.
뉴스 1: OpenAI가 Sora 앱, API, 그리고 ChatGPT의 비디오 생성 기능을 모두 종료한다고 발표했다. Sora의 X 계정에는 "We're saying goodbye to the Sora app"이라는 메시지가 올라왔다.
뉴스 2: 같은 날, 디즈니가 OpenAI와의 10억 달러(약 1.4조 원) 투자 계약을 파기했다. 마블, 픽사, 스타워즈의 200개 이상 캐릭터를 Sora에 제공하려던 3년 계약이 돈이 오가기도 전에 무산되었다.
2024년 2월, 세계를 놀라게 한 Sora의 데모 영상이 공개된 지 정확히 2년. AI 영상 생성의 상징이었던 Sora가 퇴장하는 순간, AI 영상 시장은 새로운 국면에 접어들었다.
Google의 Veo 3.1은 네이티브 4K 해상도에 대사, 효과음, 배경음을 한 번에 생성하며 시장을 장악하고 있다. Runway는 실시간 탐색 가능한 "월드 모델"을 선보였다. 중국의 Kling 3.0은 4K 60fps에 6개 장면을 하나의 클립에 담는다. 그리고 르쿤(Yann LeCun)은 Meta를 떠나 10.3억 달러를 모금하며 "진짜 월드 모델"을 만들겠다고 선언했다.
이 글에서는 Sora의 흥망성쇠(제1장), Veo 3의 부상(제2장), 나머지 경쟁자들(제3장), 월드 시뮬레이터 개념(제4장), 기술 진화의 흐름(제5장), 산업적 영향(제6장), 그리고 남은 질문들(제7장)을 다룬다.
2024년 2월 15일, OpenAI가 공개한 Sora 데모 영상은 충격이었다. 도쿄 거리를 걷는 여성, 눈 덮인 마을의 드론 샷 — 당시 기준으로 현존하는 어떤 AI 영상보다 압도적이었다. OpenAI는 기술 보고서 제목을 "Video generation models as world simulators"로 정했다. 단순한 영상 생성이 아니라 "물리 세계의 시뮬레이터"를 만들겠다는 야심찬 선언이었다.
핵심 기술은 시공간 패치(spacetime patches). 비디오를 저차원 잠재 공간으로 압축한 뒤, 시공간 패치로 분해하여 트랜스포머 토큰처럼 처리한다. LLM이 텍스트 토큰을 다루듯, Sora는 비디오 패치를 다룬다. 이를 통해 다양한 해상도, 길이, 종횡비의 영상을 하나의 모델로 학습할 수 있었다.
1. 처참한 잔존율
a16z 파트너 Olivia Moore가 공유한 데이터:
30일 잔존율 1%. 모바일 앱 업계에서 이 수치는 사실상 사망 선고다. 월간 다운로드도 330만(2025.11) → 110만(2026.02)으로 급감했다.
2. 컴퓨트 비용 대비 수익 부재
영상 생성은 텍스트 생성보다 수십 배 많은 GPU 자원을 소모한다. 그런데 인앱 결제 수익은 총 210만 달러(약 30억 원)에 불과했다. 직원들조차 출시 후 실제 컴퓨트 소모량에 놀랐다는 보도가 있다. 2025년 말 칩 부족 속에서 경영진이 생성 제한을 강화했다.
3. 딥페이크/저작권 위기
약한 안전장치로 인해 공인 딥페이크, 저작권 캐릭터(마리오, 피카츄, 나루토) 무단 생성, 불쾌한 콘텐츠가 범람했다. 일본 콘텐츠 무역 단체 CODA(스튜디오 지브리 포함)가 Sora 2 학습에 자사 콘텐츠 사용 중단을 공식 요청했다.
4. IPO 앞둔 전략적 판단
Sam Altman이 직원들에게 한 말: "사이드 퀘스트를 멈추고 핵심 사업(비즈니스/코딩)에 집중하자." 2026년 Q4 IPO를 앞둔 상황에서, 수익성 없는 영상 생성보다 엔터프라이즈와 생산성 도구에 자원을 집중하겠다는 결정.
5. 경쟁 환경 변화
Sora가 2024년 2월에 충격을 줬을 때는 독보적이었다. 2026년 3월에는? Veo 3.1(4K+오디오), Kling 3.0(4K 60fps 멀티샷), Runway Gen-4.5, Seedance 2.0 등이 동등하거나 우월한 품질을 더 낮은 비용으로 제공하고 있었다.
Sam Altman은 Sora 연구팀이 로봇공학을 위한 월드 시뮬레이션 연구를 계속할 것이라고 밝혔다. 영상 생성 "제품"은 종료되지만, 물리 세계를 이해하는 "연구"는 지속된다.
Veo 3(2025년 5월)의 가장 큰 혁신: 영상과 음성을 한 번에 생성한다.
이전까지 AI 영상은 무음이었다. 대사, 효과음, 배경음은 별도 도구로 후처리해야 했다. Veo 3는 이 모든 것을 단일 패스에서 생성한다:
립싱크 정확도: 120ms 이내. 여러 화자의 대화 턴 전환도 지원한다. "두 사람이 카페에서 날씨에 대해 이야기하는 장면"이라고 입력하면, 영상 속 두 인물이 자연스럽게 대화하며 배경에는 카페 소음이 깔린다.
MovieGenBench(1,003개 프롬프트)에서 텍스트 정합성, 시각 품질, 물리 사실성 모두 SOTA. VBench(355개)에서 이미지-to-비디오 최고 평가. 오디오-비디오 동기화(527개 프롬프트)에서도 최상위.
| 플랜 | 가격 | Veo 접근 |
|---|---|---|
| Gemini Advanced | $19.99/월 | Veo 3.1 포함 |
| Google AI Ultra | $249.99/월 | 최대 용량 |
| API (Fast) | $0.15/초 | 개발자용 |
| API (Standard) | $0.40/초 | 고품질 |
| 학생 무료 | $0 | 미국/캐나다 대학생 (2026 학년도) |
분당 약 24. 전통적 영상 제작($4,500/분) 대비 99% 이상 저렴하지만, AI 영상 도구 중에서는 프리미엄 포지셔닝이다.
중국 콰이쇼우의 Kling은 가장 빠르게 진화하는 모델이다. 2.5 → 2.6 → 3.0이 6개월 만에 나왔다.
Runway는 "영상 생성 도구"에서 "월드 모델"로 포지셔닝을 전환했다.
Gen-4.5: Artificial Analysis 벤치마크 1247점(최고). 물리적 정확도(무게, 운동량, 유체 역학)가 독보적. 네이티브 오디오, 멀티샷 시퀀싱, 1분까지 캐릭터 일관성 유지.
GWM-1 (General World Model): 오토리그레시브 아키텍처, 24fps/720p 실시간. 3가지 변형:
바이트댄스의 반격. 출시 48시간 만에 웨이보에서 바이럴. 특징:
Apache 2.0 라이선스로 완전 오픈소스. VBench 86.22%(Sora의 84.28%를 넘는 1위). 4개 모델(T2V-14B, T2V-1.3B, I2V-14B-720P, I2V-14B-480P)을 모두 공개했다.
Wan 2.1-VACE(2025.05): 최초의 오픈소스 영상 생성+편집 통합 솔루션.
OpenAI가 Sora를 "월드 시뮬레이터"라고 불렀을 때, 많은 사람이 마케팅 수사라고 생각했다. 하지만 2026년 현재, 이 개념은 AI 연구의 가장 뜨거운 전장 중 하나가 되었다.
"월드 시뮬레이터"란 무엇인가? 단순히 예쁜 영상을 만드는 것이 아니라, 물리 법칙을 이해하고, 인과관계를 추론하며, 에이전트의 행동에 반응하는 시뮬레이션 환경을 생성하는 것이다.
Google DeepMind의 Genie 3(2025)는 이 비전에 가장 가까이 다가갔다:
2026년 3월, AI 역사의 한 페이지가 쓰였다. 얀 르쿤(Yann LeCun)이 Meta를 떠나 AMI Labs(Advanced Machine Intelligence)를 창업하고 10.3억 달러(약 1.5조 원)를 모금했다.
르쿤의 핵심 주장:
"LLM은 근본적으로 물리 세계를 이해할 수 없다. 텍스트/이미지를 생성하는 대신 추상적 표현을 학습하는 월드 모델이 로봇공학과 자율주행에 필수적이다."
그의 접근법은 JEPA(Joint Embedding Predictive Architecture) — 비디오, 오디오, 센서 데이터에서 추상적 표현을 학습하되, 픽셀이나 토큰을 직접 생성하지 않는다. Sora, Veo와는 근본적으로 다른 패러다임이다.
| 응용 분야 | 현재 진행 상황 |
|---|---|
| 로봇공학 | Runway GWM Robotics: 로봇 학습용 합성 데이터. OpenAI Sora 팀: 월드 시뮬레이션 → 로봇 연구 전환 |
| 자율주행 | AMI Labs: 4D 월드 모델로 자율주행 시나리오 생성 |
| 게임 | Runway GWM Worlds: 탐색 가능한 게임 환경 실시간 생성 |
| 영화 프리비즈 | Genie 3: 감독이 장면을 실시간으로 탐색하며 구도 결정 |
2024년까지 AI 영상은 무음이었다. 2025년에 모든 것이 바뀌었다:
| 모델 | 오디오 통합 시점 | 특징 |
|---|---|---|
| Veo 3 | 2025.05 | 최초 네이티브 오디오 (대사, 효과음, 배경음) |
| Sora 2 | 2025.09 | 음성, 배경 사운드스케이프, 립싱크 |
| Kling 2.6 | 2025.12 | 단일 패스 오디오-비디오 동시 생성 |
| Kling 3.0 | 2026.02 | 다국어 오디오 (5개 언어) |
| Seedance 2.0 | 2026.02 | 통합 멀티모달 공동 생성 아키텍처 |
| Runway Gen-4.5 | 2025.12 | 네이티브 오디오 추가 |
주요 스튜디오 제작 예산의 3% 미만이 생성형 AI에 투입되고 있다. 하지만 운영 비용의 ~7%는 이미 AI 도구로 전환되었다.
주요 활용:
주목할 프로젝트: 생성형 AI로 대부분 제작된 애니메이션 영화가 2026년 5월 칸 영화제 데뷔를 목표로 진행 중. 일반적 3년 대신 9개월, 예산 3천만 달러 이하.
| 법률/규정 | 시행 시기 | 핵심 내용 |
|---|---|---|
| TAKE IT DOWN Act (미국) | 2025.05 | 비동의 AI 친밀 이미지 게시 범죄화. 48시간 내 삭제 의무 |
| DEFIANCE Act (미국) | 2026.01 | 연방 소송권, 손해배상 25만 |
| EU AI Act | 2025~ | 딥페이크 공개 의무 |
| 덴마크 저작권법 | 2025 | 초상을 지적재산으로 취급 |
| 미국 45개 주 | 2025 중반까지 | 각종 딥페이크 관련 법안 시행 |
딥페이크 사건은 2024년 257% 급증했고, 2025년 1분기만으로 2024년 전체를 19% 초과했다.
알리바바의 Wan 2.1이 VBench에서 Sora를 넘었다. MAGI-1(Sand AI)은 24B 파라미터 오픈소스로 Kling 급 품질을 달성했다. LLM에서 벌어진 오픈소스 혁명이 영상 생성에서도 반복될 가능성이 높다.
Runway GWM-1과 Google Genie 3가 프로토타입을 보여줬지만, 아직 "진짜 월드 시뮬레이터"에는 거리가 있다. 한계:
르쿤의 AMI Labs가 10.3억 달러로 추구하는 JEPA 기반 접근이 이 한계를 넘을 수 있을지가 2026~2027년의 핵심 관전 포인트다.
Sora의 종료는 OpenAI에게 단기적으로 옳은 결정이었을 수 있다. 수익성 없는 사업을 정리하고 핵심(GPT, 코딩, 에이전트)에 집중하는 것이니까. 하지만 장기적으로, 영상/월드 시뮬레이션은 AGI로 가는 핵심 경로 중 하나다. OpenAI가 이 분야를 완전히 포기한 것이 아니라 "연구"로 전환한 것은, 이 기술의 장기적 가치를 인정하는 것이다.
Sora의 퇴장은 하나의 시대가 끝났음을 알린다. "AI로 예쁜 영상을 만든다"는 단계는 지났다. 모든 주요 플레이어가 4K, 네이티브 오디오, 분 단위 길이를 달성한 지금, 경쟁은 새로운 차원으로 이동하고 있다.
그 차원이 월드 시뮬레이터다. 영상을 "생성"하는 것이 아니라 세계를 "이해"하고 "시뮬레이션"하는 것. 이것이 로봇공학, 자율주행, 게임, 그리고 궁극적으로 AGI와 연결된다.
2026년의 교훈: 기술의 우위만으로는 부족하다. Sora는 기술적으로 탁월했지만, 비즈니스 모델(30일 잔존율 1%), 안전 장치(딥페이크 범람), 시장 타이밍(경쟁자들의 빠른 추격)에서 실패했다. 반면 Veo 3는 Google의 거대한 생태계(YouTube, Gemini, Cloud)와 결합하여 지속 가능한 포지션을 잡았다.
AI 영상의 미래는, 30일 잔존율 1%의 소비자 앱이 아니라, 모든 산업에 스며드는 인프라가 되는 것이다. 그 인프라의 핵심에 월드 시뮬레이터가 있다.
참고 자료: