coredot.today
PINN은 왜 시간 문제에서 자꾸 무너질까 — causal training으로 다시 읽는 학습 실패의 구조
블로그로 돌아가기
PINNcausal trainingPhysics-Informed Neural NetworksScientific MLPDE과학 AI

PINN은 왜 시간 문제에서 자꾸 무너질까 — causal training으로 다시 읽는 학습 실패의 구조

시간 의존 PDE에서 PINN은 왜 자주 실패할까? 2022년 causal training 논문을 중심으로, 시간축 causality를 무시한 훈련이 만드는 병목과 그 처방, 그리고 2026년 현재 이 기술의 실제 자리를 쉽고 깊게 풀어본다.

코어닷투데이2026-04-1636

들어가며 — 왜 PINN은 뒤 시간을 먼저 맞추는 것처럼 보일까?

시간축 앞부분이 무너지는데도 뒤쪽이 먼저 맞아 보이는 PINN의 역설

시간 의존 PDE를 PINN으로 풀다 보면 이상한 장면을 자주 본다. t=0t=0 부근의 초기 상태는 아직 어긋나 있는데, 시각화된 해의 후반부는 얼핏 그럴듯해 보인다. 더 정확히 말하면, 네트워크는 앞선 시간을 아직 설명하지 못하는데도 뒤 시간을 향한 잔차를 먼저 줄여 버리는 방향으로 움직일 수 있다.

이 현상은 단순한 "최적화가 조금 불안정하다" 정도의 문제가 아니다. Wang, Sankaran, Perdikaris의 2022년 논문 Respecting causality is all you need for training physics-informed neural networks가 날카롭게 지적한 핵심은 이것이다. 표준 continuous-time PINN은 물리 시스템의 시간적 선후관계를 손실함수 안에서 충분히 존중하지 않는다. 물리 세계는 원인이 먼저이고 결과가 나중이지만, 손실함수는 종종 시공간 전체를 평평한 합으로 본다.

이 글은 그 논문을 요약하는 글이 아니다. 더 중요한 질문은 이것이다.

시간 문제에서 PINN이 실패하는 진짜 병목은 무엇인가?
그리고 causal training은 그 병목을 어떻게, 어디까지 해결하는가?

이미 PINN의 기본 개념은 알고 있고, PDE와 수치해석의 직관도 어느 정도 있는 독자를 상정하겠다. 그래서 이 글은 "PINN이 무엇인가"보다 "왜 시간축에서 무너지는가", "causal weighting이 실제로 무슨 제약을 거는가", "2026년 지금 이 아이디어가 어디까지 살아남았는가" 에 초점을 맞춘다.


1. 역사 — PINN의 낙관이 어디서 깨졌는가

PINN의 역사는 곧 "신경망이 PDE를 대신 풀 수 있을까?"라는 오래된 낙관과, 그 낙관이 현실 앞에서 부딪힌 실패의 역사이기도 하다.

1998 Lagaris는 trial solution에 경계조건을 직접 심어 ODE/PDE를 신경망으로 푸는 고전적 아이디어를 제시했다. 핵심은 "해의 형식 자체로 제약을 만족시키자"였다.
2019 Raissi, Perdikaris, Karniadakis는 자동미분 기반의 Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations를 통해 PINN을 현대적 프레임으로 정식화했다.
2021 Karniadakis 등은 Physics-informed machine learning 리뷰에서 PINN과 과학 AI의 지형을 정리하며 기대치를 크게 끌어올렸다.
2021 Krishnapriyan 등은 failure modes 연구에서 PINN이 convection-dominated, multi-scale, chaotic 계열 문제에서 왜 쉽게 무너지는지를 체계적으로 보여줬다. "잘 안 된다"가 아니라 "왜 구조적으로 어렵나"를 묻기 시작한 시점이다.
2022 Wang 등은 한 걸음 더 나아가, 시간 의존 문제에서 standard continuous-time PINN 자체가 causality를 위반하는 방식으로 학습될 수 있다고 진단했다. 이 지점이 causal training의 출발점이다.

이 흐름을 한 문장으로 요약하면 이렇다.
Lagaris는 아이디어를 열었고, Raissi는 프레임을 만들었고, 2021년의 실패 모드 연구들은 그 프레임이 모든 문제에 통하지 않음을 드러냈으며, Wang et al. 2022는 그 실패를 시간축의 관점에서 재해석했다.


2. 핵심 진단 — 시간축은 순서가 있는데, 손실함수는 종종 순서가 없다

시간 의존 PDE를 푼다고 해 보자. 표준 continuous-time PINN은 대개 시공간 내부 collocation point 전체에서 residual을 계산하고, 그것을 한꺼번에 합산한다. 시간을 NtN_t개의 window 또는 slice로 나눠 보면 직관은 더 분명해진다.

Lr(θ)=i=1NtLr(ti,θ)\mathcal{L}_r(\theta) = \sum_{i=1}^{N_t} \mathcal{L}_r(t_i,\theta)

여기서 Lr(ti,θ)\mathcal{L}_r(t_i,\theta)ii번째 시간 구간의 PDE residual loss다. 문제는 이 합이 수학적으로는 교환 가능하다는 점이다. optimizer 입장에서는 t1t_1t20t_{20} 사이에 본질적 선후가 없다. 하지만 물리 시스템은 그렇지 않다.

초기 오차가 뒤 시간으로 도미노처럼 증폭되는 시간적 인과성

물리계의 시간 전개
초기조건 → 짧은 시간 진화 → 더 긴 시간 진화
표준 residual 합
t₁ 잔차 + t₂ 잔차 + … + tₙ 잔차

이 차이는 단순한 철학이 아니라 수치해석의 기본 직관과 맞닿아 있다. 예를 들어 forward Euler를 떠올리면,

un+1un+ΔtN(un)u^{n+1} \approx u^n + \Delta t \, \mathcal{N}(u^n)

이다. 즉 un+1u^{n+1}의 품질은 unu^n이 제대로 맞아야 비로소 의미가 있다. 앞 시간이 틀렸는데 뒤 시간을 먼저 맞춘다는 것은, 물리적으로는 잘못된 기반 위에 나중 상태를 억지로 접합하는 일에 가깝다.

Wang et al.은 이 현상을 NTK 관점으로도 해석한다. 표준 PINN의 parameter dynamics가 어떤 temporal residual mode를 먼저 줄이는 implicit bias를 가질 수 있고, 그 결과 초기조건을 충분히 맞추기 전에 later-time residual이 줄어드는 방향으로 학습이 진행될 수 있다는 것이다. 하지만 이 글에서 더 중요한 렌즈는 NTK가 아니다. 더 직접적인 진단은 이것이다.

continuous-time PINN은 시간의 화살표를 "합의 구조" 안에 넣지 못했다.

그래서 time-dependent PDE에서 흔히 보이는 증상들이 나온다.

  • 초기조건 손실이 충분히 낮아지지 않았는데 후반부 residual이 요동치며 감소한다.
  • 짧은 구간에서는 맞는 것 같다가 horizon이 조금만 길어져도 붕괴한다.
  • chaotic 또는 turbulent 계열에서 앞쪽 미세 오차가 뒤쪽 전체 구조를 무너뜨린다.

Allen-Cahn처럼 비교적 단순한 예제에서는 이것이 "왜 0.5 수준의 큰 상대오차가 남는가"로 나타나고, Lorenz나 Kuramoto-Sivashinsky, Navier-Stokes에서는 "왜 장시간 동역학을 아예 붙잡지 못하는가"로 증폭된다.


3. causal training — 뒤 시간을 당장 배우지 못하게 만드는 단순한 장치

Wang et al.의 해법은 생각보다 직설적이다. 시간 residual을 동일하게 더하지 말고, 앞선 시간 residual이 충분히 줄어들기 전에는 뒤 시간 residual의 영향력을 잠가 두자는 것이다.

weighted residual loss는 다음처럼 쓸 수 있다.

Lrcausal(θ)=i=1NtwiLr(ti,θ),\mathcal{L}^{\text{causal}}_r(\theta) = \sum_{i=1}^{N_t} w_i \, \mathcal{L}_r(t_i,\theta), wi=exp(ϵk=1i1Lr(tk,θ)),w1=1w_i = \exp \left( -\epsilon \sum_{k=1}^{i-1}\mathcal{L}_r(t_k,\theta) \right), \qquad w_1 = 1

여기서 ϵ\epsilon은 causality parameter다. 이 식의 의미는 매우 분명하다.

  • 앞선 시간 구간의 residual 합이 크면 wiw_i는 작아진다.
  • 그러면 뒤 시간 구간의 residual은 loss에 거의 기여하지 못한다.
  • 앞선 시간 residual이 줄어들수록 wiw_i가 커지고, 그때서야 뒤 시간이 "학습 대상"으로 열린다.

즉 causal training은 뒤 시간을 더 똑똑하게 맞추는 기법이라기보다, 앞 시간이 아직 틀렸을 때 뒤 시간을 함부로 맞추지 못하게 하는 규율이다.

왜 이 weighting이 직관에 맞는가?

논문의 가장 좋은 점은 이 weighting이 PDE의 temporal precedence를 수식으로 복원한다는 데 있다. 표준 PINN에서는 모든 시간이 동등한 투표권을 가진다. causal training에서는 그렇지 않다. 뒤 시간은 앞 시간의 residual이 만든 "관문"을 통과해야만 optimizer에게 발언권을 얻는다.

causal training의 학습 루프
1단계시간축을 여러 window로 나누고 각 구간 residual을 따로 계산한다.
2단계이전 구간들의 누적 residual로 현재 구간 weight w_i를 만든다.
3단계초기 구간 residual이 충분히 낮아질 때까지 뒤 구간 loss는 거의 잠긴 상태로 남는다.
4단계시간이 아니라 residual이 줄어드는 순서대로 학습이 전진한다. 결과적으로 시간적 causality가 다시 손실함수 안에 들어온다.

causality parameter ϵ\epsilon은 왜 민감한가?

ϵ\epsilon이 너무 작으면 gating이 약해진다. 뒤 시간 window가 너무 빨리 열려서 causal training이 사실상 평범한 weighted sum에 가까워진다. 반대로 ϵ\epsilon이 너무 크면 앞 구간 residual을 극도로 작게 만들기 전에는 뒤 구간이 거의 열리지 않아 optimization이 지나치게 뻣뻣해진다.

논문도 이 민감도를 분명히 인정한다. 그래서 실전에서는 ϵ\epsilon 하나를 영원히 고정하기보다 annealing strategy를 쓴다. 작은 값에서 시작해 점점 강한 causality를 부과하는 증가열을 사용한다. 부록 설정에서는 [102,101,100,101,102][10^{-2}, 10^{-1}, 10^0, 10^1, 10^2] 같은 단계적 스케줄이 기본값으로 제시된다.

실무적 해석: annealing은 무엇을 하는가?
처음부터 강한 causality를 걸면 optimization이 너무 경직될 수 있다. 반대로 너무 약하면 표준 PINN의 병을 되풀이한다. annealing은 이 둘 사이를 잇는 타협안이다. 초기에는 네트워크가 거친 형태를 먼저 잡게 두고, 이후에는 시간 순서를 더 엄격히 강제해 뒤 window의 개방을 늦춘다.

stopping criterion은 왜 temporal weights를 보나?

이 논문의 또 다른 장점은 학습 종료 조건을 loss 값 하나로 보지 않는다는 점이다. Wang et al.은 temporal weights가 전부 충분히 활성화되었는지, 즉

miniwi>δ\min_i w_i > \delta

가 되는지를 stopping criterion으로 제안한다. 직관은 이렇다.

  • 가장 뒤쪽 시간 구간까지도 weight가 충분히 커졌다면,
  • 앞선 모든 병목 residual이 어느 정도 해소되었다는 뜻이고,
  • 더 오래 학습하는 것이 반드시 더 좋은 예측으로 이어지지 않을 수 있다.

논문은 이 stopping criterion이 더 빠를 뿐 아니라 더 정확할 수도 있다고 보고한다. 특히 Lorenz 예제에서는 고정 iteration으로 더 오래 돌렸을 때 loss는 더 내려가지만 예측은 오히려 나빠지는 overfitting 비슷한 양상이 관찰된다.


4. 벤치마크를 읽는 법 — 이 논문은 무엇을 고쳤고, 무엇까지는 고치지 못했는가

Allen-Cahn — causal training의 가장 좋은 입문 예제

Allen-Cahn은 이 논문을 읽는 첫 관문이다. 이유는 간단하다. 문제 자체는 비교적 익숙하지만, 표준 PINN의 시간축 실패와 causal training의 개선이 가장 선명하게 드러나기 때문이다.

방법상대 L2 오차해석
Original formulation of Raissi et al.4.98e-01시간 의존 문제에서 사실상 실패
Adaptive time sampling2.33e-02샘플링 개선만으로는 한계
Self-attention2.10e-02표현력 개선은 되지만 순서 문제는 남음
Time marching1.68e-02시간 분할은 도움 되지만 오차는 여전히 큼
Causal training (MLP)1.43e-03시간 causality 복원만으로 급격한 개선
Causal training (modified MLP)1.39e-04아키텍처 개선과 결합 시 한 단계 더 내려감

숫자만 봐도 포인트가 선명하다. 샘플링을 바꾸거나 self-attention을 넣는 것보다, loss에 시간 순서를 다시 심는 것이 더 강하게 작동한다. Allen-Cahn은 이 논문의 주장을 가장 우아하게 증명한다.

Lorenz — "나중 상태를 흉내 내는 것"과 "동역학을 따라가는 것"은 다르다

Lorenz는 chaotic ODE의 대표 예제다. 아주 작은 초기 오차가 빠르게 증폭되기 때문에, 앞 시간을 제대로 맞추지 못하면 뒤 시간은 겉보기로만 비슷한 궤적이 되기 쉽다. 논문이 보고한 상대 L2 오차는 다음과 같다.

Lorenz 성분상대 L2 오차의미
x1.139e-02초기 민감도를 감안하면 매우 낮은 수준
y1.656e-02window별 stopping이 실제로 작동
z7.038e-03세 성분 중 가장 안정적

Lorenz에서 중요하게 읽어야 할 대목은 단순히 "오차가 작다"가 아니다. stopping criterion을 제거하고 더 오래 학습하면 오히려 예측이 나빠질 수 있다는 관찰이다. causal training은 학습 순서를 설계하는 동시에, 언제 멈춰야 하는지도 temporal weight로 알려 준다.

Kuramoto-Sivashinsky — regular와 chaotic 사이의 간극

Kuramoto-Sivashinsky는 PINN에게 잔인한 문제다. 고차 미분, 강한 시공간 상호작용, chaotic regime이 겹친다.

  • regular case: 상대 L2 오차 3.49e-04
  • chaotic case: 논문 본문과 캡션의 표현이 조금 다르므로, 시공간 전체에서 대략 2e-2 수준으로 읽는 것이 안전하다. 본문의 대표 값은 2.26e-02다.

이 대목에서 causal training의 역할은 분명하지만, 동시에 한계도 드러난다. regular case에서는 매우 정교하게 맞지만, chaotic case로 가면 여전히 오차가 한 자릿수 더 커진다. 즉 causal training은 "chaos를 공짜로 해결"하는 마법이 아니다. 시간 순서를 복원해 학습이 무너지지 않게 만들 뿐, chaotic dynamics 자체를 쉽게 만들지는 않는다.

Navier-Stokes turbulence — PINN이 처음으로 닿은, 그러나 아직 솔버를 대체하지는 못한 영역

논문은 2D decaying turbulence 예제에서 velocity-vorticity formulation을 사용해 Navier-Stokes를 푼다. 보고된 상대 L2 오차는 다음과 같다.

Navier-Stokes 변수상대 L2 오차해석
u3.90e-02turbulence를 무감독 PINN으로 붙잡았다는 점이 중요
v2.61e-02가장 낮은 오차
w3.53e-02vorticity까지 시공간 전체에서 유지

이 결과는 과소평가할 필요도, 과대평가할 필요도 없다. 분명한 성과는 이것이다. PINN이 이전에는 접근하기 어려웠던 turbulent regime에 실제로 들어갔다. 하지만 그 사실이 곧바로 "산업용 CFD를 PINN이 대체한다"를 뜻하지는 않는다.

중요한 단서 — causal training만으로 이 결과가 나온 것은 아니다

이 논문을 읽을 때 가장 흔한 오해는 "loss에 weight만 곱했더니 다 풀렸다"는 식의 독해다. 실제 recipe는 더 강하다.

논문의 성과를 만든 실제 조합
1. modified MLP로 PINN backbone 자체를 강화했다.
2. 주기 문제에서는 exact periodic boundary conditions를 Fourier feature 방식으로 강제했다.
3. Kuramoto-Sivashinsky 같은 고차 미분 문제에서는 Taylor-mode automatic differentiation로 계산 비용을 줄였다.
4. Lorenz, KS, Navier-Stokes에서는 time-windowing과 병렬 JAX 학습을 적극 사용했다.
5. 그 위에 causal residual weighting과 stopping criterion을 얹었다.

따라서 더 정확한 결론은 이렇다.
causal training은 단독 만능약이 아니라, 강한 PINN recipe 안에서 특히 시간축 병목을 해결하는 핵심 재료다.


5. 2026년의 자리 — 중요한 패턴이 되었지만, 보편 해법은 아니다

여기서부터는 2026년 시점의 해석을 조금 더 분명히 하겠다. 아래 평가는 위 논문들과 후속 시스템들을 바탕으로 한 코어닷투데이의 해석이다.

5-1. causal training은 이제 "옵션"이 아니라 "패턴"에 가깝다

2024년 PirateNets 논문은 causal training을 여전히 핵심 failure mode 대응책으로 다룬다. 더 흥미로운 점은 JAX-PI 계열 실험 파이프라인이 이를 사실상 표준 재료로 흡수했다는 점이다. 실제 JAX-PI 공개 구현에는 여러 예제에서 use_causal = Truecausal_tol 설정이 기본값으로 들어가 있다. 이는 단순한 인용이 아니라, 후속 강한 PINN stack 안에서 causal training이 살아남았다는 증거다.

즉 2026년의 causal training은 "한때 화제가 된 아이디어"라기보다, 시간 의존 PINN을 진지하게 돌릴 때 기본적으로 고려해야 하는 training pattern으로 보는 편이 맞다.

5-2. 그래도 universal fix는 아니다

그렇다고 causal training을 PINN의 최종 해답으로 읽으면 곤란하다. 다음 문제들은 여전히 남는다.

  • long-horizon chaotic dynamics에서 error accumulation 자체를 없애 주지는 못한다.
  • stiff, multi-scale, high-dimensional PDE에서 representation bottleneck이 사라지는 것은 아니다.
  • geometry, sampling, optimizer, loss balancing, precision, AD 비용 같은 다른 병목도 그대로 남아 있다.

다시 말해 causal training이 고치는 것은 "시간 순서를 무시한 학습" 이지, PINN의 모든 고질병이 아니다.

5-3. inverse problems와 sparse-data scientific ML에서는 여전히 강하다

PINN이 여전히 설득력 있는 영역은 어디일까? 가장 먼저 떠오르는 답은 inverse problems다. 2025년 Neural Networks에 실린 Physics-informed neural networks for solving inverse problems in phase field models는 관측이 희소하고, 미지의 매개변수나 latent field를 동시에 복원해야 하는 문제에서 PINN 계열 접근이 여전히 강력하다는 점을 보여준다.

이 맥락에서는 causal training의 가치가 더 커진다. sparse observation 아래에서 시간 정보까지 거꾸로 학습하면 inverse problem은 더 불안정해진다. 반대로 시간 순서를 먼저 세우면, PINN은 데이터 적합과 물리 제약 사이에서 훨씬 덜 흔들린다.

5-4. 디지털 트윈에서는 "단독 솔버"보다 "하이브리드 컴포넌트"로 더 현실적이다

2026년형 디지털 트윈 워크플로에서 PINN이 들어가는 자리

2026년의 실전적 자리매김은 디지털 트윈 쪽에서 더 분명하다. Digital twin framework with physics-informed neural networks for real-time monitoring of PEM electrolyzers in renewable microgrids 같은 사례가 보여 주는 것은, PINN이 초대형 고충실도 솔버를 전부 대체한다는 이야기가 아니다. 오히려 실시간 모니터링, state estimation, parameter identification, reduced-order prediction 같은 층위에서 물리를 아는 surrogate/estimator로 쓰인다는 이야기다.

이런 워크플로에서는 다음 두 형태가 특히 자연스럽다.

워크플로PINN의 역할왜 causal training이 유효한가
순수 PINN 디지털 트윈실시간 상태 추정, 결측 센서 보간, 파라미터 식별시간축 순서를 지켜 sparse sensor data를 안정적으로 동화
PINN + operator hybridoperator가 장기 전개를 맡고, PINN이 제약·보정·역문제를 맡음각자의 강점을 분리해 실무성이 높음
전통 솔버 + PINN 보조잔차 교정, boundary/parameter inferencePINN을 전체 솔버가 아니라 추론 모듈로 제한 가능

5-5. 그럼 언제 operator learning이나 전통 솔버가 더 자연스러운가?

이 질문에는 단호해야 한다. 긴 horizon, 다중 스케일, 대규모 3D, 고충실도 산업 CFD라면 operator learning이나 전통 솔버가 더 자연스러운 경우가 많다. DeepONet이나 FNO는 학습 데이터가 준비되어 있다면 장기 전개와 다수 query 추론에서 훨씬 효율적일 수 있고, 검증된 CFD 솔버는 여전히 정확성과 신뢰성의 기준점이다.

그래서 2026년의 실무 감각은 "PINN 대 operator"의 이분법이 아니다. 더 가까운 구도는 이렇다.

희소 관측 + 미지 파라미터 + 물리 제약
PINN 계열 유리
장기 전개 + 대규모 반복 추론
operator learning 유리
고충실도 기준 해
전통 솔버가 여전히 핵심

causal training은 이 지도에서 PINN을 더 쓸 만하게 만들어 준다. 하지만 지도를 뒤집지는 못한다.


6. 정리 — causal training이 남긴 가장 큰 교훈

Wang et al. 2022의 메시지는 생각보다 넓다. PINN은 PDE residual을 손실함수에 넣는다고 해서 자동으로 "물리를 배운" 모델이 되지 않는다. 물리의 구조를 어떤 방식으로 loss와 architecture 안에 넣었는가가 더 중요하다.

causal training의 진짜 공헌은 다음 한 문장으로 압축된다.

시간 의존 문제에서 물리는 교환 가능하지 않다. 따라서 residual도 교환 가능한 합으로만 다뤄서는 안 된다.

Allen-Cahn에서는 이것이 order-of-magnitude 개선으로 보였고, Lorenz와 Kuramoto-Sivashinsky에서는 PINN이 이전보다 훨씬 긴 시간 구조를 붙잡을 수 있게 했으며, Navier-Stokes turbulence에서는 "PINN이 이 문제까지 들어갈 수 있나?"라는 문턱을 넘게 했다. 동시에 2026년의 관점에서 보면, 이 기법은 universal cure가 아니라 강한 scientific ML recipe의 표준 부품으로 남았다.

PINN이 시간 문제에서 자꾸 무너지는 이유를 한 줄로 묻는다면, 이제 답은 꽤 명확하다.
앞 시간을 충분히 이해하기 전에 뒤 시간을 먼저 줄여도 된다고 optimizer에게 허락했기 때문이다.
causal training은 그 허락을 철회한다.


참고 자료


함께 읽으면 좋은 글