PINNGradient AlignmentScientific MLSOAPSecond-Order OptimizationPDEPhysics-Informed Learning

PINN은 왜 자꾸 딴길로 샐까 — Gradient Alignment와 2차 최적화로 다시 읽는 물리 AI

PINN은 왜 물리식을 알고도 자주 학습에 실패할까? Gradient Alignment 논문을 중심으로, gradient conflict의 정체, SOAP와 Newton 계열 preconditioning의 의미, 그리고 2026년 현재 PINN의 역할까지 쉽고 깊게 풀어본다.

코어닷투데이2026-03-2045분

들어가며 — 왜 PINN은 방정식을 알고도 자꾸 딴길로 샐까

Gradient Alignment 특집 대표 이미지

PINN(Physics-Informed Neural Networks)의 약속은 단순했다. 데이터가 부족해도, 방정식과 경계조건을 손실함수 안에 넣으면 신경망이 물리적으로 말이 되는 해를 찾을 수 있으리라는 약속이다. 그래서 처음 PINN을 접하면 자연스럽게 이렇게 생각하게 된다. "이 모델은 이미 physics를 안다. 그러면 남은 일은 그 physics를 따라 잘 내려가기만 하면 되지 않을까?"

현장은 그 기대를 여러 번 배반했다. Navier-Stokes에서는 no-slip 경계조건을 잘 맞추는 순간 continuity와 momentum residual이 흔들리고, Allen-Cahn 같은 상전이 문제에서는 인터페이스를 맞추는 방향과 전체 동역학을 맞추는 방향이 자주 엇갈린다. 경계층(boundary layer) 문제가 들어오면 벽 근처 오차와 내부 영역 오차가 서로 다른 스케일로 증폭되면서 훈련이 쉽게 경직된다. 즉, PINN은 물리를 "모르지" 않는다. 문제는 물리를 반영한 여러 손실 항이 같은 하강 방향을 공유하지 않는다는 점이다.

이 글은 바로 그 지점을 다룬다. 핵심 논지는 명확하다. PINN의 병목은 물리식의 부재가 아니라, 물리식이 만든 다중 목적 최적화 구조에 있다. 손실 항마다 gradient의 크기가 다르고, 때로는 방향까지 반대가 된다. 그러면 optimizer는 "내려가고 있다"는 착각 속에서 실제로는 서로 다른 목적 사이를 오가며 에너지를 소모한다.

이미 이 블로그의 PINN 입문 글에서 PINN의 기본 개념을, Sharp-PINNs 해설에서 결합 PDE에서의 gradient conflict를, Shampoo/SOAP 특집에서 행렬 기반 preconditioning의 감각을 다뤘다면, 이번 글은 그 세 가지를 하나의 문헌사로 묶는다. 왜 2019년의 낙관은 2020년의 진단으로, 2024년의 손실 지형 해석으로, 그리고 2025년의 Gradient Alignment 논문으로 이어졌는지 순서대로 따라가 보자.

제1장: 배경 — PINN은 왜 과학 AI의 약속처럼 보였는가

PINN이 처음부터 주목받은 이유는 단순히 "딥러닝으로 PDE를 푼다"는 문구가 신기해서가 아니다. 더 중요한 이유는, PINN이 수치해석과 순수 딥러닝 사이의 오랜 간극을 메우는 것처럼 보였기 때문이다.

전통적인 수치해석은 강하다. 지배 방정식이 명확하고 메시를 잘 만들 수 있으면, 유한차분법(FDM), 유한체적법(FVM), 유한요소법(FEM)은 높은 신뢰도로 해를 준다. 하지만 복잡한 기하, 역문제, 희소 관측, 반복적인 재해석이 들어오면 비용이 빠르게 커진다. 반대로 순수 딥러닝은 관측 데이터에서 직접 함수를 근사하는 데 강하지만, 물리 보존법칙을 스스로 알지는 못한다. 데이터가 부족하거나 분포가 바뀌면 쉽게 무너진다.

PINN은 이 두 진영의 장점을 동시에 취하겠다고 선언했다. 신경망의 함수 근사 능력을 유지하면서도, PDE residual과 경계조건을 손실로 넣어 물리 제약을 학습 과정에 직접 삽입하는 방식이다. 자동미분이 $\partial_t u$ , $\nabla \cdot u$ , $\nabla^2 u$ 같은 항을 계산해 주니, 연구자는 해석적 미분을 일일이 전개하지 않아도 된다. 이 점은 "메시를 짜는 수고를 줄인 과학 계산"이자 "데이터 없이도 구조를 아는 딥러닝"처럼 보였다.

수치해석, 순수 딥러닝, PINN의 위치

전통 수치해석 FDM / FEM / FVM 방정식과 메시가 분명할 때 강력하다. 정확도와 안정성이 높지만, 역문제·희소 데이터·복잡한 재설정에는 비용이 크다.

PINNs Physics + Neural Nets 물리식, 경계조건, 관측 데이터를 하나의 loss로 묶는다. 수치해석의 구조와 딥러닝의 함수 근사를 연결하는 다리처럼 보였다.

순수 딥러닝 Black-box Regression 데이터가 많고 분포가 안정적이면 강하다. 그러나 물리 보존법칙을 외부에서 주입하지 않으면 extrapolation이 약하다.

이 약속은 특히 세 가지 장면에서 매력적이었다. 첫째, 관측이 희소해도 PDE residual이 일종의 "가상 데이터" 역할을 해 줄 것이라는 기대가 있었다. 둘째, 해를 구하는 문제와 미지의 계수를 추정하는 역문제를 같은 프레임워크 안에 넣을 수 있었다. 셋째, 복잡한 기하나 moving boundary 같은 경우에도 연속 함수 근사라는 관점에서 유연하게 접근할 수 있을 것처럼 보였다.

그래서 2019년 전후의 PINN 담론은 상당히 낙관적이었다. 수치해석이 너무 무겁고, 순수 딥러닝은 물리를 모르니, 둘 사이의 중간 해법으로 PINN이 등장했다는 서사가 설득력을 얻었다. 문제는 이 다리의 구조물이 생각보다 흔들렸다는 점이다. "physics-informed"라는 선언은 맞았지만, physics-informed loss가 optimizer에게는 여전히 다중 목적 충돌 문제라는 사실이 뒤늦게 드러나기 시작했다.

제2장: 역사 — PINN 훈련 실패를 이해하는 여섯 단계

2019년부터 2025년까지의 PINN 문헌사를 압축하면 여섯 개의 이정표로 정리하는 편이 가장 정확하다. 중요한 것은 숫자보다 흐름이다. 연구자들은 같은 현상을 두고 계속 더 정밀한 언어를 찾아갔다. 처음에는 "PDE를 loss로 넣을 수 있다"는 가능성의 언어였고, 다음에는 "왜 잘 안 되는가"를 묻는 진단의 언어였으며, 끝내는 "어떤 방향 기하가 optimizer를 무너뜨리는가"를 묻는 정렬(alignment)의 언어로 이동했다.

2019 Raissi PINN
질문: 물리식을 loss에 넣으면 데이터가 적어도 PDE를 풀 수 있을까?

↓

2020 gradient pathologies
진단: 손실 항마다 backpropagated gradient 크기가 심하게 어긋나며 stiff dynamics가 나타난다.

↓

2020 Neural Tangent Kernel Perspective
설명: 각 손실 구성요소가 서로 다른 시간 척도로 수렴해 학습 속도가 불균형해진다.

↓

2023 Expert's Guide
실전 정리: 샘플링, 활성함수, 가중치 조정, optimizer 스케줄 같은 경험칙을 체계화한다.

↓

2024 Loss Landscape
재정의: 문제의 핵심은 local minima보다 ill-conditioned curvature와 near-zero loss 요구에 있다.

↓

2025 Gradient Alignment
정밀화: 여러 손실이 실제로 같은 방향을 가리키는지, 그리고 preconditioning이 그 방향성을 보존하는지가 핵심이 된다.

첫 번째 이정표는 당연히 2019년의 Raissi다. 여기서 PINN은 단순한 아이디어가 아니라 하나의 일반 프레임워크로 정리된다. forward problem에서는 PDE residual이 해의 제약이 되고, inverse problem에서는 부족한 센서 데이터와 물리식이 결합된다. 이 시기의 문헌은 "PINN이 할 수 있는 것"에 초점을 맞췄다.

두 번째와 세 번째 이정표는 2020년에 거의 동시에 온다. Wang 계열의 gradient pathologies 연구는 PINN이 실패하는 이유를 손실 항별 gradient 불균형, 즉 numerical stiffness의 언어로 설명했다. 비슷한 시기의 Neural Tangent Kernel 분석은 같은 현상을 "어떤 손실 항은 너무 빨리, 어떤 손실 항은 너무 느리게 수렴한다"는 시간 척도 불균형으로 설명했다. 하나는 gradient 통계의 언어, 다른 하나는 선형화된 학습 동역학의 언어지만, 둘 다 문제의 초점이 표현력보다 훈련 역학에 있다는 사실을 가리켰다.

네 번째 이정표는 2023년의 Expert's Guide 류 문헌이다. 이 계열의 글과 튜토리얼은 현장에서 반복적으로 먹히는 요령을 정리했다. collocation point를 어떻게 찍을지, activation은 무엇이 나은지, residual과 boundary loss의 weight는 어떻게 잡을지, Adam과 L-BFGS를 어떤 순서로 섞을지 같은 실천적 지침이 이때 대거 축적된다. 중요한 점은, 이 시기에도 연구자들은 이미 문제를 "모델이 너무 약해서"가 아니라 "훈련을 잘 시켜야 해서"라고 이해하고 있었다는 것이다.

다섯 번째 이정표는 2024년 ICML의 Loss Landscape 논문이다. 이 논문은 PINN의 학습 실패를 곡률(curvature), Hessian 스펙트럼, condition number의 언어로 끌어내린다. 왜 PINN은 적당히 낮은 loss로는 안 되고 near-zero loss까지 들어가야 하는가? 왜 Adam은 초반 탐색에는 괜찮지만 후반 valley 정렬에 약한가? 왜 L-BFGS나 그보다 더 직접적인 second-order refinement가 다시 호출되는가? 질문 자체가 한 단계 더 정교해졌다.

마지막 이정표가 2025년의 Gradient Alignment다. 여기서는 한발 더 나아가, "곡률이 나쁘다"는 말만으로는 부족하다고 본다. 실제 최적화 과정에서 중요한 것은 여러 손실이 같은 방향으로 움직이는지, 그리고 preconditioner가 연속한 업데이트의 방향 일관성을 지켜 주는지다. 즉, 문제 정의가 "스케일 불균형"에서 "곡률 불균형"을 거쳐 "방향 정렬의 붕괴"로 점진적으로 정밀화된 셈이다.

이 흐름을 한 줄로 요약하면 이렇다. PINN 연구는 해법의 발명사라기보다 문제 정의의 정밀화 과정이었다. 2019년에는 가능성이 보였고, 2020년에는 병증이 기술되었고, 2024년에는 손실 지형이 해부되었고, 2025년에는 gradient 사이의 기하가 측정되기 시작했다. 그래서 최신 논문을 읽을 때 가장 중요한 질문은 "새 optimizer가 더 빠른가"가 아니라, "이 논문이 PINN 실패를 어떤 언어로 더 정확히 정의하는가"다.

제3장: 핵심 개념 1 — PINN의 두 가지 gradient conflict

여러 손실이 PINN을 서로 다른 방향으로 끄는 장면

PINN의 총손실을 아주 단순하게 쓰면 다음과 같다.

\mathcal{L}(\theta)=\mathcal{L}_{\mathrm{PDE}}+\mathcal{L}_{\mathrm{BC}}+\mathcal{L}_{\mathrm{IC}}+\mathcal{L}_{\mathrm{data}}

문제는 손실값 자체가 아니라, 각 항이 만드는 gradient

g_i=\nabla_\theta \mathcal{L}_i

가 서로 어떤 관계에 있는지다. PINN에서 자주 관찰되는 충돌은 크게 두 가지다.

첫 번째는 Type I: 방향은 비슷하지만 크기가 심하게 불균형한 경우다. 이때는 표면적으로는 "다들 같은 쪽을 보고 있으니 괜찮아 보이는데?"라고 생각하기 쉽다. 하지만 실제 업데이트는 거의 항상 가장 큰 gradient가 지배한다. 예를 들어 Navier-Stokes PINN에서 no-slip boundary loss, continuity residual, momentum residual이 대체로 비슷한 해를 선호하더라도, 벽 근처 샘플이 만들어 내는 no-slip gradient가 유난히 크면 optimizer는 먼저 벽 조건만 과도하게 맞추게 된다. 그 결과 연속 방정식과 운동량 방정식은 뒤로 밀리고, bulk flow는 충분히 정렬되지 않는다.

경계층(boundary-layer) 문제도 전형적인 Type I 사례다. 벽 근처 오차는 미분 연산 때문에 크게 증폭되고, 외부 유동 영역의 residual은 상대적으로 약하게 보일 수 있다. 그러면 gradient 방향은 "대체로 맞는 해를 향해" 있어도, 스텝의 대부분이 벽 근처 수정에만 소비된다. Allen-Cahn 문제에서도 인터페이스 주변의 sharp transition을 맞추는 항이 전체 영역의 relaxation dynamics보다 훨씬 큰 gradient를 만들어, 비슷한 방향인데도 학습이 한쪽으로 쏠리는 일이 흔하다.

두 번째는 Type II: 크기는 비슷하지만 방향이 서로 반대인 경우다. 이 경우는 더 직접적이다. 한 손실을 줄이는 업데이트가 다른 손실을 즉시 악화시킨다. 결합 PDE에서 특히 자주 보인다. Sharp-PINNs 해설에서 다룬 Allen-Cahn/Cahn-Hilliard 조합이 좋은 예다. Allen-Cahn residual을 줄이기 위한 업데이트가 인터페이스를 더 날카롭게 만들면, 같은 순간 Cahn-Hilliard 쪽에서는 농도 확산과 질량 보존을 맞추기 위해 정반대 방향의 수정이 필요할 수 있다.

Navier-Stokes에서도 Type II는 낯설지 않다. 압력-속도 결합이 강한 상황에서 momentum residual을 줄이려는 업데이트가 continuity를 악화시키거나, no-slip 조건을 더 정확히 맞추기 위한 조정이 내부 유동장의 압력 구배와 충돌할 수 있다. 경계층이 얇을수록, 또는 점성·대류·압력 항의 상대적 스케일 차가 클수록 이런 반대 방향이 더 자주 등장한다.

핵심은 Type I과 Type II를 구분해야 처방이 달라진다는 점이다. Type I에서는 reweighting, resampling, normalization이 꽤 큰 도움을 줄 수 있다. 다들 같은 방향을 보는데 한 사람이 지나치게 큰 목소리를 내는 상황이기 때문이다. 반면 Type II에서는 단순한 스케일 조정만으로는 부족하다. 서로 다른 손실이 실제로 반대 방향을 가리키기 때문에, optimizer 자체가 더 좋은 좌표계로 문제를 다시 보거나, 업데이트를 분리하거나, preconditioning으로 방향 기하를 바꿔야 한다.

따라서 "gradient conflict"라는 한 단어로 묶어 말하면 중요한 차이를 놓친다. PINN이 느리게 배우는 이유가 크기 불균형 때문인지, 아니면 방향 반대 때문인지를 먼저 구분해야 한다. Gradient Alignment 논문이 중요해지는 이유도 여기 있다. 그 논문은 바로 이 둘을 구별할 수 있는 정렬 측도를 전면에 내세운다.

제4장: 핵심 개념 2 — alignment score는 무엇을 재는가

Gradient Alignment 논문에서 중심이 되는 수량은 다음의 alignment score다.

A(v_1,\dots,v_n)=2\left\lVert \frac{1}{n}\sum_{i=1}^n \frac{v_i}{\lVert v_i\rVert}\right\rVert^2-1

이 식의 핵심은 각 벡터를 먼저 정규화한다는 점이다. 즉, 크기 정보를 한 번 지워 버리고 "방향만" 본다. 여러 손실 항의 gradient를 각각 단위벡터로 바꾼 뒤 평균을 내면, 모두가 비슷한 방향을 가리킬수록 그 평균 벡터의 길이는 커진다. 반대로 서로 반대 방향이면 평균이 상쇄되어 길이가 짧아진다. 마지막의 $2(\cdot)^2-1 $변환은 이 길이를$ [-1,1]$ 범위의 점수로 옮겨 주는 역할을 한다.

해석은 직관적이다. $A \approx 1$ 이면 여러 gradient가 거의 같은 방향이다. $A \approx 0$ 이면 서로 무관하거나 부분적으로 상쇄된다. $A < 0$ 이면 방향 충돌이 강하다는 뜻이다. 이 점수의 장점은 PINN처럼 손실 항이 셋, 넷, 다섯 개로 늘어나는 상황에서도 pairwise cosine 여러 개를 일일이 보지 않고 전체 정렬 상태를 한 번에 볼 수 있다는 데 있다.

특히 $n=2$ 일 때는 이 식이 우리가 익숙한 cosine similarity와 정확히 같아진다. 두 단위벡터를 $u_1, u_2$ 라 두면

A(u_1,u_2)=2\left\lVert \frac{u_1+u_2}{2}\right\rVert^2-1 =2\cdot \frac{\lVert u_1\rVert^2+\lVert u_2\rVert^2+2u_1\cdot u_2}{4}-1 =u_1\cdot u_2

가 된다. 단위벡터의 내적은 곧 cosine similarity이므로, alignment score는 두 손실일 때는 그냥 코사인 유사도이고, 손실이 여러 개일 때는 그 개념을 자연스럽게 확장한 것이라고 이해하면 된다.

이 측도가 특히 유용한 이유는 제3장에서 본 두 유형의 충돌을 분리해서 볼 수 있기 때문이다. Type I에서는 정규화 이후 방향이 여전히 비슷하므로 $A$ 가 높게 유지될 수 있다. 즉, 원래 문제는 "방향"보다 "크기"다. 반면 Type II에서는 정규화해도 서로 반대 방향이 남기 때문에 $A$ 가 빠르게 낮아진다. 다시 말해, alignment score는 손실 크기 불균형을 지운 뒤에도 남는 순수한 방향 충돌을 측정한다.

그래서 Gradient Alignment 계열 논문은 단순히 "gradient norm이 다르다"는 진술에 머물지 않는다. 더 중요한 질문은 이것이다. optimizer가 만드는 실제 업데이트들이 서로 일관된 방향을 유지하는가? 그 질문으로 넘어가는 순간, 단순 reweighting만으로는 설명되지 않는 second-order와 preconditioning의 역할이 보이기 시작한다.

제5장: 핵심 개념 3 — 왜 second-order가 방향을 바로잡는가

preconditioning이 손실 지형에서 업데이트 경로를 바꾸는 장면

Gradient Alignment 논문이 흥미로운 지점은 "좋은 optimizer는 gradient를 작게 만드는 optimizer"라는 흔한 직관을 뒤집는 데 있다. 논문이 강조하는 직관은 다음 식에 응축되어 있다.

A(g_t, g_{t+1}) \approx 1-\frac{\eta^2}{2}\frac{\lVert H P^{-s} g_t\rVert^2}{\lVert g_t\rVert^2}

여기서 $g_t$ 는 현재 gradient, $H$ 는 loss landscape의 곡률을 나타내는 Hessian, $P^{-s}$ 는 preconditioner가 적용된 방향, $\eta$ 는 step size다. 식이 말하는 바는 간단하다. 연속한 두 업데이트의 정렬도는 곡률이 preconditioned gradient를 얼마나 심하게 꺾는가에 의해 깎인다. 즉, 좋은 preconditioner는 단순히 gradient norm을 줄이는 장치가 아니라, 다음 스텝에서도 비슷한 방향을 유지하도록 좌표계를 바꾸는 장치다.

이 점은 PINN에서 특히 중요하다. PINN loss는 residual, boundary, initial, data 항이 겹치면서 길고 좁은 valley와 급격한 비등방성(anisotropy)을 만든다. 1차 optimizer가 원래 좌표계에서 그대로 걷기 시작하면, 한 스텝마다 방향이 꺾이고 상쇄되기 쉽다. 반면 curvature를 어느 정도 반영한 preconditioning은 "가파른 축에서는 덜, 평평한 축에서는 더" 움직이게 만들어 연속한 스텝이 같은 계곡을 따라가도록 돕는다.

실무적으로 보면 그래서 second-order 계열은 PINN에서 단순한 속도 개선이 아니라 방향 안정화 장치에 가깝다. Adam이 초반 탐색에 강하더라도, 손실 항 사이의 conflict를 근본적으로 정렬시키지는 못하는 이유가 여기에 있다. 반대로 quasi-Newton이나 행렬 기반 preconditioner는 적어도 "다음 스텝도 같은 방향을 보게" 만들 가능성이 높다.

옵티마이저	핵심 메커니즘	강점	약점	PINN 해석
Adam	element-wise adaptive scale	mini-batch와 초기 탐색에 강하다.	손실 항 사이의 충돌을 좌표계 수준에서 다시 정렬하지는 못한다.	Type I 완화에는 도움을 주지만, Type II를 근본적으로 align하지는 못한다.
Adam + L-BFGS	Adam 탐색 후 quasi-Newton 정련	탐색 이후 valley alignment에 강하다.	큰 stochastic setting에는 약하고, line search가 민감할 수 있다.	초반에는 넓게 찾고 후반에는 계곡을 따라 정렬하는 PINN 기본 레시피로 자주 쓰인다.
Kron / Muon	matrix-based approximations	mini-batching에 비교적 강하고, 실용적인 quasi second-order 대안이다.	완전한 Newton은 아니므로 문제 구조에 따라 정렬 품질이 달라진다.	대규모 확률적 학습과 PINN 사이를 잇는 현실적인 중간지대다.
SOAP	Newton-like preconditioning	이 논문에서 가장 강하게 강조되는 방향 보존형 preconditioner다.	추가 행렬 연산 비용과 구현 복잡성이 따른다.	좋은 preconditioner는 gradient를 줄이는 것이 아니라, 연속한 업데이트가 같은 방향을 보게 만든다는 메시지를 가장 선명하게 보여 준다. 배경은 Shampoo/SOAP 글과 연결해 보면 좋다.

이 비교표를 PINN 문맥으로 다시 읽으면 중요한 결론이 나온다. Adam은 개별 좌표의 스케일을 조절하는 데는 유능하지만, 다중 물리 손실이 만드는 방향 충돌을 근본적으로 해결하지는 못한다. Adam 뒤에 L-BFGS를 붙이는 실전 관행이 반복해서 살아남은 이유는, 후반부에 valley를 따라가는 정렬 능력이 실제로 필요했기 때문이다. 그리고 Kron / Muon, SOAP 같은 행렬 기반 방법이 주목받는 이유는, PINN이 요구하는 것이 단지 "더 큰 학습률 안정성"이 아니라 "더 나은 좌표계"이기 때문이다.

결국 second-order의 역할을 한 문장으로 요약하면 이렇다. 좋은 preconditioner는 경사를 약하게 만드는 것이 아니라, 다음 경사도 같은 방향을 보게 만든다. Gradient Alignment 논문은 그 사실을 방향 정렬이라는 측도로 전면화했고, 그래서 PINN 최적화 담론을 "얼마나 빨리 줄어드는가"에서 "얼마나 일관되게 내려가는가"로 옮겨 놓았다.

제6장: 실험과 사례 — 어떤 PDE에서 차이가 더 크게 벌어지는가

이 글에서 재구성한 아래 벤치마크는, 본문 작성 시 기준으로 삼은 공개 benchmark table 버전의 수치를 요약한 것이다. 쉬운 PDE에서는 1차 optimizer와 quasi second-order optimizer의 차이가 "개선" 수준으로 보이지만, 난도가 올라갈수록 그 차이는 "훈련 가능 여부"에 가까워진다. 아래 표는 그 감각을 압축해서 보여 준다.

벤치마크	Adam	Kron	Muon	SOAP
Wave	5.15e-5	8.62e-6	9.34e-6	8.05e-6
Allen-Cahn	2.24e-5	3.63e-6	4.95e-6	3.48e-6
Lid-driven cavity (Re=5e3)	3.24e-1	7.05e-2	6.70e-2	3.99e-2
Kolmogorov flow (Re=1e4)	2.04e-1	8.62e-2	6.89e-2	3.20e-2
Rayleigh-Taylor instability	7.32e-2	5.74e-3	1.80e-2	5.22e-3

가장 쉬운 쪽에 가까운 Wave에서는 이미 차이가 난다. Adam이 완전히 실패하는 것은 아니지만, Kron, Muon, SOAP는 모두 한 단계 더 낮은 오차대로 내려간다. 이 구간은 "2차 계열이 있으면 더 좋다"는 정도로 읽힐 수 있다. 하지만 여기서 멈추면 논문의 핵심을 놓친다. 진짜 중요한 것은 문제가 어려워질수록 이 격차가 단순 비율 차이를 넘어 구조적 차이로 커진다는 점이다.

그 중간 단계가 Allen-Cahn이다. Allen-Cahn은 얼핏 단순한 상전이 PDE처럼 보이지만, 실제로는 인터페이스 근처의 급격한 변화와 전체 영역의 완만한 relaxation이 동시에 존재한다. 그래서 제3장에서 말한 두 conflict가 함께 나타나기 쉽다. 인터페이스 주변 gradient가 유난히 크게 튀면 Type I 문제가 되고, 인터페이스를 더 날카롭게 맞추려는 방향과 전체 자유에너지 흐름을 안정화하려는 방향이 엇갈리면 Type II가 된다. 표에서 Adam이 2.24e-5인데 SOAP가 3.48e-6까지 내려가는 이유는, 단순히 learning rate를 잘 골라서가 아니라 이런 상반된 요구를 더 일관된 좌표계에서 보게 만들기 때문이다. Allen-Cahn이 중요한 이유는 "아직 완전한 난류는 아니지만, gradient conflict가 스케일 문제를 넘어 방향 문제로 번지는" 중간 지점이기 때문이다.

차이가 본격적으로 벌어지는 구간은 유체 문제다. Lid-driven cavity (Re=5e3)는 고전 벤치마크지만, PINN 입장에서는 결코 만만하지 않다. 벽에서 주입되는 속도 조건, 내부 재순환, 압력-속도 결합, 얇아지는 경계층이 한꺼번에 들어오기 때문이다. 이 상황에서는 no-slip boundary를 잘 맞추는 방향과 내부 momentum/continuity residual을 고르게 줄이는 방향이 자주 어긋난다. 그래서 Adam의 3.24e-1이 SOAP의 3.99e-2와 비교될 때, 우리는 "유체에서 second-order가 조금 더 낫다"가 아니라 "복합 제약이 많아질수록 방향 정렬의 질이 결과를 지배한다"는 사실을 읽어야 한다.

특히 Kolmogorov flow (Re=1e4)는 이 논문에서 매우 상징적인 사례다. Kolmogorov flow는 주기적 강제력이 걸린 유동에서 다중 스케일 와류와 에너지 전달 구조를 관찰하기 좋은, 일종의 압축된 난류 실험실이다. Reynolds 수가 10,000까지 올라가면 작은 위상 오차와 국소 residual 불균형이 빠르게 증폭되고, 대류항과 점성항의 균형이 미세하게만 틀어져도 전역 해 구조가 흔들린다. 바로 이런 문제에서 PINN의 gradient conflict는 훨씬 더 노골적으로 드러난다. 어떤 배치에서는 경계와 forcing을 더 잘 맞추는 방향이 잡히고, 다른 배치에서는 내부 구조를 맞추는 방향이 앞서면서 inter-step 정렬도가 쉽게 무너진다. 표를 보면 Adam은 2.04e-1, Kron은 8.62e-2, Muon은 6.89e-2, SOAP는 3.20e-2다. 즉, 난도가 높은 고-Re 유동으로 갈수록 "좋은 optimizer"의 의미가 빠른 수렴이 아니라 서로 다른 물리 요구를 더 오래 같은 방향으로 묶어 두는 능력이 된다. Kolmogorov flow가 중요한 이유는, PINN이 실제 과학 계산으로 가려면 결국 이런 고차원·고-Re·다중 스케일 상황을 피해 갈 수 없기 때문이다.

Rayleigh-Taylor instability는 또 다른 이유로 중요하다. 이 문제는 밀도 차가 있는 유체 계면이 중력 아래에서 뒤집히며 손가락 모양 불안정성과 강한 혼합층을 만드는 대표적인 multi-physics 사례다. 계면 형상, 부력, 운동량 전달, 혼합 영역의 성장률이 서로 얽혀 있기 때문에, 한 손실 항을 줄이는 것이 다른 항의 일관성을 깨기 쉽다. 계면을 날카롭게 유지하려는 방향, 전체 속도장을 안정화하려는 방향, 압력과 연속 조건을 맞추려는 방향이 동시에 경쟁하면서 Type II conflict가 훨씬 자주 발생한다. 결과도 극적이다. Adam은 7.32e-2에 머무르지만 Kron은 5.74e-3, SOAP는 5.22e-3까지 내려간다. Muon도 개선되지만, SOAP와의 차이는 "얼마나 Newton에 가까운 preconditioning이 실제로 필요한가"를 보여 주는 읽을거리다. Rayleigh-Taylor가 중요한 이유는, 현실의 공정 시뮬레이션이나 플라즈마, 다상 유동, 열-유동 결합 문제들이 대부분 이와 비슷하게 여러 물리가 하나의 계면 주변에서 충돌하기 때문이다.

정리하면, PDE가 어려워질수록 격차가 커지는 이유는 단순히 함수가 더 복잡해서가 아니다. 경계층, 계면, 강한 비선형성, 고 Reynolds 수, 다중 물리 결합이 들어오면 손실 항 사이의 conflict가 더 자주, 더 크게, 더 오랫동안 발생한다. 쉬운 문제에서는 Type I 정도를 reweighting과 좋은 초기화로 어느 정도 버틸 수 있지만, 어려운 문제에서는 Type II까지 누적되며 step마다 방향이 꺾인다. 그래서 quasi second-order 방법의 진짜 가치는 "좋은 benchmark 성적"이 아니라, 고난도 PINN에서 물리 손실들이 서로 같은 방향을 보게 만드는 능력에 있다.

제7장: 2026년의 평가 — 이 논문의 역할은 지금도 유효한가

2026년의 scientific ML 지형에서 이 논문을 다시 읽으면, 질문은 더 이상 "PINN이 모든 PDE 학습의 미래인가"가 아니다. 지금 더 정확한 질문은 이것이다. PINN은 어떤 문제에서 여전히 대체 불가능하고, 어떤 문제에서는 neural operator나 hybrid solver가 더 자연스러운가? 이 논문의 가치는 winner-takes-all 선언에 있지 않다. 오히려 역할 분담의 기준을 더 선명하게 만들어 준다는 데 있다.

2026 Scientific ML 역할 분담

PINN 강한 물리 priors + 희소 데이터 inverse problem, calibration, parameter identification에 유리

Neural Operator 패밀리 단위 operator 학습 빠른 배치 추론, family generalization에 강함

Hybrid Solver + ML 실전형 조합 PINN, operator, classical solver의 역할 분담이 핵심

PINN이 2026년에도 여전히 강한 영역은 분명하다. 첫째는 sparse inverse problems다. 센서가 드물고 관측이 불완전할 때, 물리식을 loss에 직접 넣을 수 있다는 점은 여전히 강력하다. 둘째는 digital twin calibration이다. 배터리, 유동 장치, 반응기, 열관리 시스템처럼 이미 PDE 모델은 있지만 현장 파라미터가 계속 흔들리는 문제에서는, 순수 surrogate보다 물리 priors가 강한 PINN이 더 해석 가능하고 업데이트 친화적일 때가 많다. 셋째는 parameter identification이다. 점성계수, 확산계수, 소스 항, 경계 조건의 숨은 파라미터를 데이터와 함께 추정하는 작업에서는 PINN의 구조가 매우 직접적이다. 넷째는 simulator-in-the-loop optimization이다. 해석기와 최적화를 완전히 분리하지 않고, 설계 변수와 물리 제약을 하나의 미분 가능한 루프로 묶고 싶을 때 PINN은 여전히 좋은 중간층이 된다.

반대로 PINN이 약한 영역도 더 분명해졌다. operator family generalization이 필요한 문제, 즉 경계조건이나 forcing, 형상이 바뀌는 PDE 가족 전체를 빠르게 일반화해야 할 때는 Neural Operator 계열이 더 자연스럽다. 한번 학습한 뒤 수천, 수만 건을 매우 빠르게 평가해야 하는 ultra-fast batch inference도 마찬가지다. 전장(full-field) surrogate를 대규모로 뽑아야 하는 설계 탐색, 실시간 제어, 대규모 uncertainty quantification에서는 operator 학습이나 hybrid surrogate가 훨씬 유리한 경우가 많다. 또 full-field surrogate use case처럼 해 한 장이 아니라 해의 분포 가족 전체를 고속으로 생성해야 하는 상황에서는, 각 문제를 다시 최적화해야 하는 PINN의 비용 구조가 분명한 약점이 된다.

그래서 2026년의 그림은 경쟁이 아니라 역할 분리다. PINN은 "physics가 강하고 데이터가 희소하며, 미지 파라미터 추정과 calibration이 중요한 문제"에서 살아남는다. Neural Operator는 "많은 샘플을 빠르게 돌리고, 문제 가족 전체에 대한 추론기를 만들고 싶을 때" 빛난다. 그리고 산업 적용을 설명할 때는 둘 중 하나만 고르기보다, 고전 solver와 ML을 섞은 hybrid solver 구성이 자연스러운 예시로 자주 언급된다. coarse solver가 기본 구조를 제공하고, operator가 빠른 surrogate를 맡고, PINN이 부족한 센서 데이터로 파라미터를 다시 맞추는 식이다.

실무 생태계를 떠올릴 때도 이 구도는 예시로 설명하기 좋다. DeepXDE는 baseline 실험과 교육용 예제를 빠르게 세팅할 때 참조하기 좋은 출발점이고, JAX-PI 같은 프로젝트는 더 현대적인 autodiff와 연구형 실험 환경 위에서 PINN과 scientific ML 아이디어를 시험하는 흐름을 보여 준다. PhysicsNeMo는 산업형 워크플로에서 PINN과 operator, 물리 기반 surrogate를 함께 다루는 예로 읽을 수 있고, Neural Operator 생태계는 operator family generalization과 빠른 추론이라는 축을 별도의 도구군으로 이해하는 데 도움이 된다. 중요한 것은 특정 툴이 승리했다는 선언이 아니라, 어떤 문제에 어떤 도구 조합이 맞는지가 이제 훨씬 선명해졌다는 점이다.

그런 의미에서 Gradient Alignment 논문은 2026년에도 유효하다. 이유는 간단하다. 이 논문은 PINN을 과장하지도, 폐기하지도 않는다. 대신 PINN이 어디서 흔들리는지, 그리고 그 흔들림을 줄이려면 optimizer가 무엇을 해야 하는지를 더 정밀하게 설명한다. 즉, 이 논문은 "PINN이 아직 쓸 만한가?"라는 질문에 감정적으로 답하지 않고, 어떤 PINN이 어떤 조건에서 왜 아직 의미가 있는가를 이해하게 만든다.

2026 scientific ML landscape

마치며

PINN의 실패를 오래 바라보다 보면, 자칫 "physics를 넣었는데도 왜 안 되지?"라는 질문에 갇히기 쉽다. 하지만 이 글이 따라온 문헌사의 결론은 조금 다르다. PINN의 문제는 물리가 부족해서가 아니다. 오히려 물리를 너무 순진하게 하나의 loss 안에 넣어 두고, 그 손실들이 같은 방향으로 내려갈 것이라고 가정한 데 있었다.

그래서 Gradient Alignment 논문이 남긴 가장 중요한 유산은 새로운 optimizer 이름 하나가 아니다. 그것은 시야의 이동이다. 이제 우리는 PINN을 볼 때 "PDE residual을 넣었는가"만 묻지 않는다. 대신 "그 residual과 boundary, data, constitutive constraints가 실제 훈련 동안 서로 얼마나 정렬되는가"를 묻는다. 그리고 그 질문은 자연스럽게 second-order, quasi-Newton, Newton-like preconditioning의 의미를 다시 바꾼다. 더 빠르게 가는 것이 아니라, 더 같은 방향으로 가게 만드는 것이 핵심이라는 뜻이다.

결국 PINN의 다음 단계는 물리를 더 많이 추가하는 데만 있지 않다. 물리가 만든 gradient들이 서로 발을 맞추도록 학습을 설계하는 데 있다. 그 관점에서 보면, PINN의 병목은 physics의 부재가 아니라 aligned optimization의 부재였다.

이어 읽기

참고 자료

특집2026.03.13

PINN은 왜 자꾸 딴길로 샐까 — Gradient Alignment와 2차 최적화로 다시 읽는 물리 AI

들어가며 — 왜 PINN은 방정식을 알고도 자꾸 딴길로 샐까

제1장: 배경 — PINN은 왜 과학 AI의 약속처럼 보였는가

제2장: 역사 — PINN 훈련 실패를 이해하는 여섯 단계

제3장: 핵심 개념 1 — PINN의 두 가지 gradient conflict

제4장: 핵심 개념 2 — alignment score는 무엇을 재는가

제5장: 핵심 개념 3 — 왜 second-order가 방향을 바로잡는가

제6장: 실험과 사례 — 어떤 PDE에서 차이가 더 크게 벌어지는가

제7장: 2026년의 평가 — 이 논문의 역할은 지금도 유효한가

마치며

이어 읽기

참고 자료

관련 포스트

FP64 is All You Need — PINN 실패 모드를 다시 생각하다

PINN은 왜 자꾸 학습에 실패하는가 — Loss Landscape 관점으로 다시 읽는 훈련의 핵심

PINNacle 완전 해부 — Physics-Informed Neural Networks는 왜 기대만큼 쉽지 않았나

PINN의 손실은 왜 서로 싸우는가 — gradient pathology에서 2026년의 해법까지