Flow Matching확산 모델Rectified FlowODE최적 수송FLUXStable Diffusion 3생성 AI

Flow Matching 완전정복: 확산 모델 이후의 생성 AI 패러다임

DALL-E, Midjourney를 만든 확산 모델은 왜 느렸나? Meta AI의 Flow Matching은 '구불구불한 길' 대신 '직선 경로'로 노이즈를 이미지로 바꾼다. FLUX, SD3, Movie Gen, Voicebox — 2026년 최강 생성 모델들의 공통 비밀을 해부한다.

코어닷투데이2025-12-3028분

들어가며: 왜 AI 그림은 느렸을까?

2022년, Stable Diffusion이 세상을 바꿨다. 텍스트 한 줄로 그림을 만들어내는 마법. 하지만 사용해 본 사람이라면 알 것이다 — 느리다. 고해상도 이미지 한 장에 20~50 스텝, 고급 GPU에서도 수십 초. 왜?

답은 그 이름에 있다. 확산(Diffusion). 확산 모델은 이미지를 만들 때, 마치 향수가 방 안에 퍼지듯 노이즈를 점진적으로 제거한다. 향수가 퍼지는 과정이 구불구불하고 비효율적이듯, 확산 모델의 경로도 그렇다. 노이즈 제거의 대부분이 마지막 몇 스텝에 몰려 있고, 나머지 스텝은 거의 아무 일도 하지 않는다.

만약 노이즈에서 이미지로 가는 직선 경로가 있다면? 구불구불 돌아갈 필요 없이, 최단 거리로 한 번에 도달할 수 있다면?

이것이 Flow Matching의 핵심 아이디어다.

2022년 말, 세 그룹의 연구자들이 거의 동시에 같은 통찰에 도달했다:

Meta AI (FAIR): Yaron Lipman 등 — "Flow Matching for Generative Modeling" (ICLR 2023)
UT Austin: Xingchao Liu 등 — "Rectified Flow" (ICLR 2023 Spotlight)
NYU: Michael Albergo 등 — "Stochastic Interpolants" (ICLR 2023)

그로부터 3년, 2026년 현재 — FLUX, Stable Diffusion 3, Meta Movie Gen, Voicebox, HunyuanVideo, Wan 2.1 — 세계 최강의 생성 모델들은 모두 Flow Matching을 사용한다.

이 글에서는 Flow Matching이 왜 필요했고, 어떻게 작동하며, 왜 확산 모델을 대체하고 있는지를 처음부터 끝까지 설명한다.

제1장: 역사 — 생성 AI의 진화

VAE → GAN → 확산 → Flow Matching

생성 모델의 역사를 4세대로 나눌 수 있다:

1세대: VAE (2013). Kingma & Welling의 변분 오토인코더. 데이터를 잠재 공간(latent space)으로 압축하고 복원한다. 안정적이지만 출력이 흐릿하다.

2세대: GAN (2014). Goodfellow의 적대적 생성 신경망. 생성자와 판별자가 경쟁하며 학습. 선명한 이미지를 만들지만 학습이 극도로 불안정하고, 모드 붕괴(mode collapse)가 빈번.

3세대: 확산 모델 (2020). Ho 등의 DDPM. 이미지에 점진적으로 노이즈를 추가하는 과정을 학습하고, 역으로 노이즈를 제거하여 이미지를 생성. GAN보다 안정적이고 다양하지만, 느리다 (수십~수백 스텝).

4세대: Flow Matching (2022~). 노이즈와 이미지 사이의 직선 경로를 학습하여, 적은 스텝으로 고품질 생성. 확산 모델을 일반화하고 개선한 프레임워크.

2013 VAE → 2014 GAN → 2020 Diffusion → 2022 Flow Matching

Neural ODE: 잊혀진 선구자

Flow Matching을 이해하려면 2018년으로 돌아가야 한다. NeurIPS 2018 최우수 논문, Ricky Chen 등의 "Neural Ordinary Differential Equations."

핵심 아이디어: 데이터의 변환을 연속적인 미분방정식(ODE)으로 표현하자. 이산적 레이어(layer 1, layer 2, ...)가 아니라, 시간에 따라 연속적으로 변하는 흐름(flow)으로.

이론적으로 아름다웠지만, 치명적 문제가 있었다 — 학습하려면 ODE를 매번 시뮬레이션해야 했다. 시뮬레이션 기반(simulation-based) 학습은 느리고, 불안정하고, 메모리를 잡아먹었다. 아이디어는 옳았지만, 실용화가 불가능했다.

Flow Matching은 이 문제를 4년 후에 우아하게 해결한 것이다.

제2장: 확산 모델의 한계 — 왜 '구불구불'한가

확산 모델의 작동 방식 (30초 요약)

정방향(Forward): 깨끗한 이미지에 노이즈를 조금씩 추가한다. 충분히 많이 반복하면 순수한 가우시안 노이즈가 된다.
역방향(Reverse): 순수 노이즈에서 시작해서, 노이즈를 조금씩 제거한다. 이 "제거" 과정을 신경망이 학습한다.
문제: 역방향 과정은 확률적 미분방정식(SDE)을 따른다. 매 스텝마다 랜덤 노이즈가 추가되기 때문에 경로가 구불구불해진다.

확산 vs Flow Matching 비교

확산 경로의 비효율성

확산 모델의 역방향 경로를 시각화하면, 대부분의 스텝에서 거의 변화가 없다. 노이즈 제거가 마지막 몇 스텝에 집중된다. 앞의 수십 스텝은 "고민만 하고 움직이지 않는" 시간이다.

비유하자면:

서울에서 부산까지 가는데, 확산 모델은 고속도로를 타지 않고 전국의 국도를 돌아다닌다. 마지막에야 "아, 부산이 저기구나" 하고 방향을 잡는다. 20~50번의 방향 전환(스텝)이 필요하다.

Flow Matching은 서울에서 부산까지 직선 고속도로를 탄다. 1~4번의 방향 확인만으로 도착한다.

수학적 차이

관점	확산 모델 (DDPM)	Flow Matching
수학적 도구	SDE (확률적 미분방정식)	ODE (상미분방정식)
예측 대상	노이즈 ( $\epsilon$ -prediction)	속도장 (velocity field)
경로 형태	곡선 (마지막에 급변)	직선 (선형 보간)
필요 스텝 수	20~1000	1~~50 (증류 시 1~~4)
이론적 기반	스코어 매칭, 랑주뱅 동역학	연속 방정식, 최적 수송 이론
일반성	특정 노이즈 스케줄에 종속	확산 경로를 특수한 경우로 포함

마지막 행이 결정적이다 — 확산 모델은 Flow Matching의 특수한 경우다. Flow Matching은 확산을 포함하면서, 그보다 더 효율적인 경로(직선 경로)를 사용할 수 있는 일반적 프레임워크다.

제3장: Flow Matching의 핵심 — 놀랍도록 단순한 아이디어

직관: "노이즈에서 이미지로 가는 직선을 배워라"

Flow Matching의 핵심을 한 문장으로:

시간 $t=0$ 의 노이즈에서 시간 $t=1$ 의 이미지까지, 각 시점에서 데이터가 어느 방향으로 얼마나 빠르게 움직여야 하는지(속도장, velocity field)를 학습한다.

2단계 레시피

Meta의 "Flow Matching Guide and Code" (2024)에 따르면, Flow Matching은 정확히 두 단계로 작동한다:

Step 1: 확률 경로(Probability Path) 설계. 소스 분포(가우시안 노이즈, $t=0$ )에서 타겟 분포(실제 데이터, $t=1$ )로 가는 연속적인 확률 경로 $p_t(x)$ 를 정의한다.

가장 단순한 선택: 선형 보간. $x_t = (1-t) \cdot x_0 + t \cdot x_1$ 여기서 $x_0$ 은 노이즈, $x_1$ 은 데이터 샘플.

Step 2: 속도장 학습. 신경망 $v_\theta(x, t)$ 를 학습하여, 각 시점 $t$ 에서 데이터 $x$ 가 어느 방향으로 이동해야 하는지 예측한다.

손실 함수는 놀랍도록 단순하다: $\mathcal{L} = \mathbb{E}\left[\|v_\theta(x_t, t) - (x_1 - x_0)\|^2\right]$

"현재 위치에서의 예측 속도"와 "실제 속도(= 데이터 - 노이즈)"의 차이를 최소화하라. 이것이 전부다.

조건부 Flow Matching (CFM): 핵심 트릭

이론적으로 "모든 데이터 포인트에 대한 평균 속도장"을 직접 계산하는 것은 불가능하다 (비다루기, intractable). 하지만 조건부 Flow Matching(CFM)이 이 문제를 해결한다.

핵심 정리: 개별 데이터 포인트에 조건화된 속도장(conditional vector field)을 학습하는 것은, 전체 속도장(marginal vector field)을 학습하는 것과 수학적으로 동일한 그래디언트를 준다.

따라서 학습 시에는 데이터 포인트 하나, 노이즈 하나를 뽑아서 선형 보간하고, 그 속도를 예측하기만 하면 된다. 확산 모델의 $\epsilon$ -prediction과 비슷한 수준의 단순함이지만, 더 효율적인 경로를 학습한다.

왜 직선이 최적인가 — 최적 수송(Optimal Transport)

Flow Matching이 직선 경로를 사용하는 것은 우연이 아니다. 수학적으로 이것은 최적 수송 이론과 연결된다.

1780년대, 프랑스 수학자 가스파르 몽주(Gaspard Monge)는 이런 문제를 제시했다: "흙더미를 구덩이에 옮길 때, 가장 적은 비용으로 옮기는 방법은?" 이것이 최적 수송 문제다.

2000년대, Benamou와 Brenier는 이 문제의 동적 형식화를 제시했다: 확률 분포를 연속적으로 이동시킬 때, 운동 에너지를 최소화하는 경로는 무엇인가? 답은 직선(측지선, geodesic)이다.

Flow Matching의 직선 보간 $x_t = (1-t)x_0 + tx_1$ 은 정확히 이 최적 수송의 해에 해당한다. 노이즈와 데이터 사이의 가장 에너지 효율적인 경로다.

왜 직선이 좋은가 — 3가지 이유

1. 이산화 오차 제로: 완벽한 직선은 오일러 스텝 1번으로 정확히 풀린다. 구불구불한 경로는 많은 스텝이 필요.

2. 경로가 교차하지 않음: OT 경로는 서로 교차하지 않아, 학습 분산이 낮고 수렴이 빠르다.

3. 학습 신호가 단순: 속도가 상수(

x_1 - x_0

)이므로, 신경망의 회귀 타겟이 단순하다.

제4장: 실전 — Flow Matching이 만든 모델들

FLUX.1: 2024년 이미지 생성의 왕

FLUX.1은 Black Forest Labs가 2024년 8월 출시한 120억 파라미터 이미지 생성 모델이다. 개발팀은 Stable Diffusion의 원 저자들(Robin Rombach, Andreas Blattmann, Patrick Esser)이 독립하여 설립한 회사다.

FLUX.1의 핵심 아키텍처는 Rectified Flow Transformer — Flow Matching의 직선 경로와 트랜스포머를 결합한 것이다.

세 가지 변형:

FLUX.1 [pro]: 플래그십. 텍스트-이미지 ELO 1060점, 리더보드 1위
FLUX.1 [dev]: 가이던스 증류 버전. 연구/비상업 용도
FLUX.1 [schnell]: 속도 최적화. 1~4 스텝으로 2048px 이미지 생성. A100에서 약 10초

FLUX.1은 Midjourney, DALL-E 3, Stable Diffusion 3, SDXL을 모두 능가하는 성능을 보인다.

Stable Diffusion 3: Rectified Flow의 대중화

2024년 3월, Stability AI의 Esser 등이 발표한 SD3 논문 "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis"(ICML 2024)는 Flow Matching을 대중에게 알린 결정적 논문이다.

핵심 기여:

MMDiT (Multimodal Diffusion Transformer): 텍스트와 이미지에 별도 가중치를 사용하되 양방향 정보 교환. 텍스트 이해력, 타이포그래피 품질 향상
노이즈 샘플링 개선: Rectified Flow의 노이즈를 지각적으로 중요한 스케일로 편향시켜 학습 효율 향상
예측 가능한 스케일링: 검증 손실이 낮을수록 생성 품질이 향상되는 예측 가능한 관계 확인

Meta Movie Gen: 300억 파라미터 비디오 생성

2024년 10월, Meta가 공개한 Movie Gen은 300억 파라미터의 Flow Matching 기반 비디오 생성 모델이다.

최대 16초 고해상도 비디오 생성
10억 이미지-텍스트 쌍 + 1억 비디오-텍스트 쌍으로 학습
4가지 능력: 비디오 생성, 개인화 비디오, 정밀 비디오 편집, 오디오 생성
Flow Matching의 장점: 제로 터미널 SNR(signal-to-noise ratio)이 내재적으로 보장되어, 추가 조정 없이 안정적인 비디오 출력

Meta Voicebox: 음성 생성의 혁명

2023년 6월 발표된 Voicebox는 Flow Matching의 첫 대규모 음성 적용 사례다 (NeurIPS 2023).

비자기회귀(non-autoregressive) Flow Matching 모델
5만 시간 이상의 음성 데이터로 학습
6개 언어 지원
Microsoft의 VALL-E 대비: 인식 오류율 1.9% vs 5.9%, 음성 유사도 0.681 vs 0.580, 속도 최대 20배 빠름

HunyuanVideo & Wan 2.1: 오픈소스 비디오 생성

텐센트 HunyuanVideo (2024~2025): 130억 파라미터, Flow Matching 기반 최대 오픈소스 비디오 생성 모델. 15억 비디오 + 100억 이미지로 학습.

알리바바 Wan 2.1 (2025년 2월): 140억 파라미터 Flow Matching 모델. VBench 리더보드 1위 (86.22%) — OpenAI Sora (84.28%), Luma (83.61%)를 능가.

VBench 비디오 생성 리더보드 (2025)

Wan 2.1 (Flow Matching)

86.22%

Sora

84.28%

Luma

83.61%

제5장: 확산을 넘어서 — Flow Matching이 닿는 곳

이산 Flow Matching: 텍스트까지

Flow Matching은 연속 데이터(이미지, 오디오)에서 시작했지만, 2024년 Meta의 Discrete Flow Matching (NeurIPS 2024 Spotlight)이 이산 데이터(텍스트, 코드)까지 확장했다.

17억 파라미터로 스케일하여, 비자기회귀 텍스트 생성에서 최고 성능을 달성했다. 자기회귀 모델(GPT 스타일)과 달리, 모든 토큰을 동시에 생성할 수 있어 이론적으로 훨씬 빠르다.

단백질 설계: 생명과학의 혁명

Nature npj AI (2025)에 발표된 서베이 "Flow Matching meets Biology"에 따르면, Flow Matching은 생명과학에서 폭발적으로 확산 중이다.

SE(3)-Stochastic Flow Matching: 단백질 백본 구조 생성 (ICLR 2024)
OriginFlow: SDE 모델과 Flow Matching을 결합한 단백질 설계
FlowMol3: 3D 소분자 신약 생성
EVA-Flow: 분자 입체 구조 생성

단백질 접힘(folding) 이후의 다음 큰 도전 — 단백질 설계(design) — 에서 Flow Matching이 핵심 도구로 자리잡고 있다.

3D, 로보틱스, 그리고 그 너머

3D 생성: 텍스트에서 3D 메시(mesh)/점군(point cloud) 생성
로봇 정책 학습: 연속적인 행동 분포를 Flow Matching으로 모델링
의료 영상: MRI, CT 복원 및 생성

제6장: 직접 느껴보는 Flow Matching

비유 1: 네비게이션

확산 모델은 길을 모르는 택시 기사다. 일단 출발해서, 매 교차로마다 "여기가 맞나?" 확인하며 돌아다닌다. 50번의 교차로를 지나서야 목적지에 도착한다.

Flow Matching은 네비게이션이 있는 택시 기사다. 출발지에서 목적지까지의 최적 경로를 알고 있어, 직선으로 달린다. 4번의 방향 확인이면 충분하다.

비유 2: 조각

확산 모델은 대리석 블록에서 망치와 정으로 먼지를 조금씩 떨어뜨린다. 형태가 서서히 드러나는데, 마지막 단계에서야 세부 디테일이 나타난다.

Flow Matching은 대리석 블록의 모든 지점이 최종 형태의 해당 위치로 직접 이동한다. 불필요한 중간 형태 없이, 노이즈가 이미지의 올바른 위치로 직행한다.

비유 3: 수학 시험

확산 모델은 문제를 풀 때 무작위로 답을 쓰고, 지우고, 다시 쓰는 과정을 반복한다. 결국 맞는 답에 도달하지만 시간이 오래 걸린다.

Flow Matching은 풀이 과정을 알고 있어서, 첫 줄부터 마지막 줄까지 한 번에 쓴다.

제7장: 기술 심층 분석

연속 정규화 흐름(CNF)과의 관계

Flow Matching은 2018년 Neural ODE에서 제안된 연속 정규화 흐름(CNF)의 후속 발전이다. CNF의 핵심 문제 — 학습 시 ODE 시뮬레이션 필요 — 를 Flow Matching이 시뮬레이션 없는(simulation-free) 학습으로 해결했다.

비교:

CNF (2018): ODE를 정의하고, 매 학습 스텝마다 ODE를 풀어야 한다. 느리고 불안정.
Flow Matching (2022): 조건부 속도장에 대한 단순 회귀 손실로 학습. ODE 시뮬레이션 불필요. 빠르고 안정적.

Rectified Flow: 직선을 더 직선으로

Rectified Flow (Liu et al., 2022)는 Flow Matching에 정류(rectification) 절차를 추가한다:

임의의 커플링(노이즈-데이터 쌍)에서 ODE 모델을 학습한다.
학습된 모델로 새로운 커플링을 생성한다 — 이 커플링은 원래보다 더 직선에 가까운 경로를 만든다.
이 과정을 반복하면 경로가 점점 더 직선에 가까워진다.

완벽한 직선은 이산화 오차가 0이므로, 단 1회의 오일러 스텝으로 정확한 생성이 가능하다. FLUX.1 [schnell]이 1~4 스텝으로 고품질 이미지를 생성할 수 있는 이유다.

Stochastic Interpolants: 통합 프레임워크

Albergo, Boffi, Vanden-Eijnden (2023)의 확률적 보간법(Stochastic Interpolants)은 Flow Matching과 확산 모델을 하나의 프레임워크로 통합한다.

핵심 통찰: 동일한 보간법에서 출발하되, 확산 계수(diffusion coefficient)를 조절할 수 있다:

확산 계수 = 0 → 순수 Flow Matching (ODE)
확산 계수 > 0 → 확산 모델과 유사 (SDE)

이것은 Flow Matching과 확산이 연속적인 스펙트럼의 양 끝점임을 보여준다. 설계자는 문제에 따라 최적의 지점을 선택할 수 있다.

제8장: 2026년 현재 — Flow Matching 생태계

학계: 폭발적 성장

NeurIPS 2025: 30편 이상의 Flow Matching 논문 채택
ICLR 2026: 150편 이상의 관련 제출
MIT 6.S184 (2025~2026): "SDE를 이용한 생성 AI" 전용 교과과정 — 학생들이 Flow Matching과 확산 모델을 처음부터 구현
전문화된 변형이 증식 중: Categorical FM, Riemannian FM, Dirichlet FM, Discrete FM

Meta의 오픈소스 기여

Meta AI(FAIR)는 Flow Matching의 산파이자 최대 기여자다:

flow_matching PyTorch 라이브러리: 연속/이산 FM 구현 및 예제 (github.com/facebookresearch/flow_matching)
"Flow Matching Guide and Code" (2024년 12월): 분야의 참조 문서 역할. 수학적 기초부터 PyTorch 구현까지 자기 완결적 리뷰
핵심 논문들: 원본 Flow Matching, Voicebox, Movie Gen, Discrete FM

산업 채택 현황

Flow Matching 기반 주요 모델 (2023~2026)

이미지: FLUX.1, SD3 120억 파라미터. 1~4 스텝 생성

비디오: Movie Gen, Wan 2.1 140~300억. VBench 1위

음성: Voicebox VALL-E 대비 20배 빠름

텍스트: Discrete FM 비자기회귀 최고 성능

단백질: SE(3)-FM ICLR 2024. 분자 설계

마치며: 직선의 힘

수학자 몽주가 1780년대에 물었다: "흙을 옮기는 가장 효율적인 경로는?" 답은 직선이었다.

240년 뒤, AI 연구자들이 물었다: "노이즈를 이미지로 바꾸는 가장 효율적인 경로는?" 답은 역시 직선이었다.

확산 모델은 "어떤 경로든 결국 목적지에 도달한다"는 것을 보여주었다. Flow Matching은 "최적의 경로가 존재하고, 그것을 직접 학습할 수 있다"는 것을 보여주었다. 그 차이가 50 스텝과 4 스텝의 차이, 수십 초와 수 초의 차이, 그리고 2022년과 2026년의 차이를 만들었다.

FLUX가 1초에 이미지를 그리고, Movie Gen이 16초 비디오를 만들고, Voicebox가 20배 빠르게 말하고, Wan 2.1이 VBench 1위를 차지한 것 — 이 모든 것의 수학적 기반에는 "직선이 가장 빠르다"는 단순하고도 깊은 통찰이 있다.

때로는 가장 단순한 답이 가장 강력하다.

참고 문헌

Lipman, Y., Chen, R. T. Q., Ben-Hamu, H., Nickel, M., & Le, M. (2023). Flow Matching for Generative Modeling. ICLR 2023. arXiv:2210.02747.
Liu, X., Gong, C., & Liu, Q. (2023). Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow. ICLR 2023 Spotlight. arXiv:2209.03003.
Albergo, M. S., Boffi, N. M., & Vanden-Eijnden, E. (2023). Stochastic Interpolants: A Unifying Framework for Flows and Diffusions. arXiv:2303.08797.
Esser, P., et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis. ICML 2024. arXiv:2403.03206.
Meta AI. (2024). Flow Matching Guide and Code. arXiv:2412.06264.
Gat, I., et al. (2024). Discrete Flow Matching. NeurIPS 2024 Spotlight. arXiv:2407.15595.
Polyak, A., et al. (2024). Movie Gen: A Cast of Media Foundation Models. Meta AI. arXiv:2410.13720.
Le, M., et al. (2023). Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale. NeurIPS 2023. arXiv:2306.15687.
Chen, R. T. Q., et al. (2018). Neural Ordinary Differential Equations. NeurIPS 2018 Best Paper. arXiv:1806.07366.
Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020. arXiv:2006.11239.

기술2026.04.25