coredot.today
콜모고로프-아르놀드 정리 완전 해부 — 130년 된 수학 난제가 AI의 미래를 바꾸고 있다
블로그로 돌아가기
KAN콜모고로프-아르놀드MLP신경망LoRA수학AI 아키텍처B-스플라인

콜모고로프-아르놀드 정리 완전 해부 — 130년 된 수학 난제가 AI의 미래를 바꾸고 있다

1900년 힐베르트가 던진 도전장, 19세 천재 아르놀드의 증명, 그리고 2024년 MIT에서 탄생한 KAN까지 — 130년에 걸친 수학 정리가 어떻게 AI 신경망의 새로운 패러다임이 되었는지, 역사·논문·사례로 깊이 파고듭니다.

코어닷투데이2026-04-0442

들어가며: 수학자의 도전장, AI 연구자의 답장

1900년, 파리. 20세기가 막 시작된 해에 독일의 수학자 다비트 힐베르트(David Hilbert)가 세계 수학자 대회에서 23개의 미해결 문제를 발표합니다. 이 문제들은 이후 100년간 수학의 방향을 결정짓게 됩니다.

그중 13번 문제는 이런 질문이었습니다:

"여러 변수를 가진 복잡한 함수를, 더 적은 변수를 가진 간단한 함수들의 조합으로 분해할 수 있는가?"

1900년 파리 수학자 대회 — 힐베르트가 13번 문제를 발표하는 장면

힐베르트는 "불가능하다"고 추측했습니다. 변수가 많아질수록 함수는 근본적으로 더 복잡해져서, 단순한 함수들의 조합으로는 표현할 수 없다고 생각한 것이죠.

57년 뒤, 소련의 수학자 안드레이 콜모고로프와 그의 19세 제자 블라디미르 아르놀드가 힐베르트의 추측을 완전히 뒤집는 증명을 발표합니다. 그리고 다시 67년이 지난 2024년, MIT와 칼텍의 연구자들이 이 130년 된 수학 정리를 새로운 신경망 아키텍처 KAN으로 부활시킵니다.

이 글은 그 130년의 여정을 따라갑니다.


1장. 힐베르트 13번 문제 — "복잡한 것은 단순하게 풀 수 없다"

7차 방정식이 던진 질문

힐베르트 13번 문제를 이해하려면, 먼저 7차 방정식을 알아야 합니다.

수학자들은 오래전부터 고차 방정식의 해를 구하는 데 관심이 있었습니다. 2차 방정식의 근의 공식은 중학교에서 배우죠. 3차, 4차 방정식도 (복잡하지만) 공식이 있습니다. 5차 이상은? 아벨-루피니 정리에 의해 일반적인 공식은 없습니다.

하지만 변수 치환(Tschirnhaus 변환)을 통해, 모든 7차 방정식은 아래 형태로 환원될 수 있음이 알려져 있었습니다:

x7+ax3+bx2+cx+1=0x^7 + ax^3 + bx^2 + cx + 1 = 0

여기서 해 xx는 세 변수 a,b,ca, b, c의 함수입니다. 힐베르트의 질문은:

이 해 x(a,b,c)x(a, b, c)를, 두 변수 이하의 연속함수들의 합성으로 표현할 수 있는가?

힐베르트는 "불가능하다"고 추측했습니다. 세 변수가 얽혀 만들어내는 복잡성은, 두 변수 함수로는 포착할 수 없다고 생각한 것입니다.

노모그래피: 왜 이 문제가 중요했나

힐베르트가 이 문제를 제시한 배경에는 노모그래피(nomography)라는 실용적 맥락이 있었습니다. 노모그래피란 눈금자와 곡선을 이용해 복잡한 계산을 시각적으로 푸는 기법으로, 당시 공학에서 널리 사용되었습니다.

노모그래피에서 두 변수 함수는 2차원 평면의 곡선 패밀리로 쉽게 표현됩니다. 하지만 세 변수 이상의 함수는? 차원이 늘어나면 시각적 표현이 급격히 어려워집니다. 힐베르트의 문제는 결국 이런 질문이었습니다:

"고차원의 복잡성을 저차원으로 환원하는 것이 근본적으로 가능한가?"

왜 이것이 중요한가? 이 질문은 수학을 넘어 데이터 과학과 AI의 근본 문제이기도 합니다. 고차원 데이터(이미지, 텍스트, 유전자 등)를 더 낮은 차원의 표현으로 효과적으로 압축할 수 있는가? 힐베르트의 13번 문제는 이 질문의 수학적 원형(prototype)인 셈입니다.

2장. 19세 천재의 증명 — 콜모고로프와 아르놀드

콜모고로프: 소련 수학의 거인

안드레이 니콜라에비치 콜모고로프(1903-1987)는 20세기 가장 영향력 있는 수학자 중 한 명입니다. 확률론, 복잡성 이론, 위상수학, 난류 이론 등 거의 모든 수학 분야에 이름을 남겼죠.

1956년, 콜모고로프는 먼저 예비 결과를 발표합니다: 여러 변수의 연속함수는 세 변수 함수들의 유한한 조합으로 구성할 수 있다. 힐베르트가 추측한 것보다 한 단계 약한 결과였지만, 이미 방향은 명확했습니다 — 힐베르트의 추측이 틀릴 가능성이 높다는 것.

아르놀드: 19세에 스승의 추측을 증명하다

1957년, 모스크바 국립대학교의 학부생이던 블라디미르 아르놀드(Vladimir Arnold)가 결정적인 결과를 발표합니다. 당시 그의 나이, 겨우 19세.

아르놀드는 증명했습니다:

세 변수의 모든 연속함수는 두 변수 연속함수들의 유한한 합성으로 표현할 수 있다.

이것은 힐베르트의 13번 문제 연속함수 버전을 완벽히 부정한 것입니다. 힐베르트는 "불가능하다"고 추측했는데, 아르놀드가 "가능하다"고 증명해 버린 것이죠.

1900
힐베르트 — "다변수 함수를 저변수 함수로 분해하는 것은 불가능할 것이다" (13번 문제 제시)
1956
콜모고로프 — "세 변수 함수로는 가능하다" (예비 결과)
1957
아르놀드 (19세) — "두 변수 함수로도 가능하다!" (힐베르트의 추측 부정)
1957
콜모고로프 — 아르놀드의 결과를 확장하여 최종 정리 증명: 일변수 함수와 덧셈만으로 충분!

콜모고로프는 제자 아르놀드의 결과에서 영감을 받아, 더욱 강력한 최종 정리를 증명합니다.


3장. 정리의 핵심 — "다변수 함수 = 일변수 함수 + 덧셈"

콜모고로프-아르놀드 표현 정리

콜모고로프-아르놀드 정리 — 복잡한 다변수 함수가 단순한 일변수 함수들의 조합으로 분해되는 과정

정리의 내용을 수학적으로 정확하게 표현하면 이렇습니다:

[0,1]n[0,1]^n에서 정의된 모든 연속함수 f(x1,,xn)f(x_1, \ldots, x_n)는 다음과 같이 표현할 수 있다:

f(x1,,xn)=q=02nΦq(p=1nφq,p(xp))f(x_1, \ldots, x_n) = \sum_{q=0}^{2n} \Phi_q \left( \sum_{p=1}^{n} \varphi_{q,p}(x_p) \right)

여기서:

  • φq,p:[0,1]R\varphi_{q,p}: [0,1] \to \mathbb{R}내부 함수(inner functions). 연속 단조증가 함수. ff에 의존하지 않는 보편적(universal) 함수
  • Φq:RR\Phi_q: \mathbb{R} \to \mathbb{R}외부 함수(outer functions). ff에 따라 달라지는 함수
  • 외부 합은 정확히 (2n+1)(2n+1)개의 항

이것이 의미하는 바를 비유로 풀면

레스토랑 비유를 들어봅시다.

전통적인 관점(힐베르트의 추측):

"10가지 재료로 요리를 만들려면, 10가지 재료가 동시에 어우러지는 복잡한 조리 과정이 필요하다."

콜모고로프-아르놀드 정리가 증명한 것:

"아무리 복잡한 요리도, 각 재료를 개별적으로 손질하고(일변수 함수), 그 결과를 합친 다음(덧셈), 한 번 더 조리하면(외부 함수) 만들 수 있다."

콜모고로프-아르놀드 정리: 레스토랑 비유
Step 1: 개별 손질
각 재료(변수)를 따로따로 손질한다 → φ(x₁), φ(x₂), ..., φ(xₙ)
Step 2: 합치기
손질된 재료들을 더한다 → φ(x₁) + φ(x₂) + ... + φ(xₙ)
Step 3: 최종 조리
합쳐진 결과를 한 번 더 변환한다 → Φ(합계)
Step 4: 반복
이 과정을 (2n+1)번 반복하고 결과를 더하면, 어떤 요리든 완성

왜 이것이 놀라운가

핵심 통찰을 정리합니다:

다변수 함수에서 유일하게 "진짜 다변수"인 연산은 덧셈뿐이다.

나머지 모든 복잡성은 일변수 함수로 인코딩할 수 있습니다. 이것은 직관에 반합니다. 우리는 "변수가 많으면 더 복잡하다"고 생각하는데, 정리는 "아무리 변수가 많아도, 일변수 함수와 덧셈만으로 모든 것을 표현할 수 있다"고 말합니다.

그런데 왜 바로 활용되지 못했나?

정리에는 실용적 한계가 있었습니다. 내부 함수 φq,p\varphi_{q,p}가 연속이기는 하지만, 극도로 불규칙한(wildly behaving) 프랙탈에 가까운 형태일 수 있었습니다. 원래 함수 ff가 아무리 매끈하더라도, 분해된 내부 함수는 미분조차 불가능할 수 있었죠.

이 때문에 수학자들은 정리를 "아름답지만 쓸모없는 이론적 결과"로 치부했고, 67년간 실용적 응용 없이 잠들어 있었습니다.

그 잠을 깨운 것이 2024년의 KAN 논문입니다.


4장. KAN의 탄생 — 수학 정리가 신경망이 되다

2024년 4월, 한 편의 논문

2024년 4월 30일, MIT와 칼텍의 연구자 쯔밍 류(Ziming Liu) 등 8명이 arXiv에 논문을 공개합니다:

"KAN: Kolmogorov-Arnold Networks"

이 논문은 공개 직후 AI 커뮤니티에서 폭발적인 반응을 얻었습니다. GitHub 저장소(pykan)는 16,200+ 스타를 기록하고, 논문은 ICLR 2025(세계 최고 AI 학회 중 하나)에 정식 채택됩니다.

MLP vs KAN: 무엇이 다른가

KAN을 이해하려면 먼저 기존 신경망인 MLP(Multi-Layer Perceptron)를 알아야 합니다.

MLP와 KAN의 아키텍처 비교 — 노드에 활성화 함수가 있는 MLP(왼쪽)와 엣지에 학습 가능한 함수가 있는 KAN(오른쪽)

구분MLP (기존 신경망)KAN (새로운 신경망)
이론적 기반범용 근사 정리 (Cybenko, 1989)콜모고로프-아르놀드 정리 (1957)
활성화 함수 위치노드(뉴런)에 고정된 함수 (ReLU, sigmoid 등)엣지(연결선)에 학습 가능한 함수 (B-스플라인)
엣지(연결선) 역할단순한 선형 가중치 (w × x + b)일변수 함수 φ(x) — 곡선 자체가 학습됨
노드(뉴런) 역할가중합 + 활성화 적용단순 덧셈만 수행
해석 가능성블랙박스 — 내부 작동 해석 어려움각 엣지의 함수를 시각화하고 수식으로 변환 가능

쉽게 말하면:

  • MLP: 노드가 똑똑하고(활성화 함수), 엣지는 멍청하다(숫자 하나)
  • KAN: 노드가 멍청하고(그냥 더함), 엣지가 똑똑하다(함수 전체를 학습)

B-스플라인: KAN의 비밀 무기

KAN의 엣지에서 학습되는 함수는 B-스플라인(B-spline)이라는 수학적 도구로 표현됩니다.

B-스플라인은 "부드러운 곡선을 조각조각 이어 만드는 방법"입니다. 각 조각은 다항식이고, 조각들이 매끄럽게 연결됩니다. 중요한 특성:

B-스플라인의 핵심 특성
지역적 제어
한 지점의 조절 계수를 바꿔도 전체 곡선이 아닌 근처만 영향
매끄러움 보장
3차 B-스플라인은 1차·2차 미분까지 연속
격자 확장 가능
거친 격자 → 세밀한 격자로 점진적 정밀도 향상

KAN의 학습 과정에서 격자(grid)를 점점 세밀하게 만들면, 손실(loss) 그래프에 "계단 현상"이 나타납니다 — 격자를 확장할 때마다 손실이 급격히 떨어지고, 다시 안정화되는 패턴이 반복됩니다.

놀라운 성능 결과

KAN 논문의 실험 결과는 충격적이었습니다:

PDE(편미분방정식) 풀기 — 포아송 방정식:

파라미터 수 vs 정확도 비교
KAN (2층, 폭 10)
MSE: 10⁻⁷
~100개 파라미터
MLP (4층, 폭 100)
MSE: 10⁻⁵
~10,000개 파라미터

KAN이 파라미터 100배 적게 사용하면서 정확도는 100배 높은 결과를 보여준 것입니다.

특수함수 근사 성능:

함수MLP (RMSE)KAN (RMSE)KAN 우위
베셀 함수 (jv)5.52 × 10⁻³1.64 × 10⁻³3.4배
수정 베셀 함수 (kv)1.67 × 10⁻⁴2.52 × 10⁻⁵6.6배
구면 조화 함수1.25 × 10⁻⁶2.21 × 10⁻⁷5.7배

스케일링 법칙의 비밀

KAN이 강한 이유는 스케일링 법칙(scaling law)에 있습니다.

  • MLP의 스케일링 지수: α=(k+1)/d\alpha = (k+1)/d (차원 dd가 커질수록 느려짐 — 차원의 저주)
  • KAN의 스케일링 지수: α=k+1\alpha = k+1 (차원 dd무관 — 차원의 저주를 회피!)

3차 B-스플라인(k=3k=3) 기준으로, KAN의 스케일링 지수는 α=4\alpha = 4입니다. MLP는 차원이 높아질수록 이 지수가 급격히 떨어지는 반면, KAN은 차원과 무관하게 빠르게 수렴합니다.

핵심 포인트: KAN이 "차원의 저주"를 회피할 수 있는 이유는, 콜모고로프-아르놀드 정리의 구조 자체가 다변수 문제를 일변수 문제들의 합으로 분해하기 때문입니다. 차원이 아무리 높아도, 각 차원을 독립적으로 처리하므로 복잡도가 차원에 비례하지 않습니다.

5장. 정직한 비교 — KAN은 언제 강하고, 언제 약한가

"KAN or MLP: A Fairer Comparison" (Yu et al., 2024)

KAN이 만능일까요? 2024년 7월, 공정한 비교를 시도한 논문이 등장합니다.

파라미터 수를 동일하게 맞추고 5개 도메인에서 테스트한 결과:

도메인MLP 성능KAN 성능승자
머신러닝 (8개 데이터셋)우세열세MLP
컴퓨터 비전 (8개 데이터셋)우세열세MLP
오디오 분류 (2개 데이터셋)우세열세MLP
텍스트 분류 (2개 데이터셋)우세열세MLP
수식 근사 (8개 함수)열세7/8 승리KAN

결과는 명확합니다:

  • 대규모 범용 태스크(CV, NLP, 오디오): MLP가 여전히 강함
  • 수학적·과학적 함수 근사: KAN이 압도적으로 강함

KAN의 진짜 강점은 "해석 가능성"

KAN의 가장 독특한 장점은 사람이 이해할 수 있는 AI를 만든다는 것입니다.

MLP의 내부는 블랙박스입니다 — 수백만 개의 가중치 숫자가 왜 그런 값인지 설명할 수 없죠. 하지만 KAN은 각 엣지의 활성화 함수를 시각적으로 볼 수 있고, 나아가 기호식(symbolic expression)으로 변환할 수 있습니다.

예를 들어, KAN에 물리 데이터를 학습시키면:

  1. 각 엣지의 함수를 시각화 → "이 엣지는 sin(x)\sin(x) 같은 모양이네"
  2. 불필요한 엣지를 가지치기(pruning) → 핵심 구조만 남김
  3. 남은 함수를 기호식으로 변환 → "f(x,y)=sin(πx)+y2f(x,y) = \sin(\pi x) + y^2" 같은 공식 발견

이것이 바로 KAN이 "과학자와 협업하는 AI"로 불리는 이유입니다.

데이터 학습
엣지 함수 시각화
가지치기
기호식 변환
물리 법칙 발견!

KAN의 약점도 솔직하게

약점내용
학습 속도B-스플라인의 재귀 계산으로 MLP 대비 약 2ᵏ배 느림
GPU 효율B-스플라인이 병렬 연산에 최적화되지 않음. MLP는 행렬 곱으로 GPU에 완벽 최적화
대규모 확장깊이 20층 이상, 격자 크기 20+ 에서 학습 불안정
연속 학습MLP보다 심각한 파국적 망각(catastrophic forgetting) 문제

6장. LoRA와 KAN — 효율적 AI의 두 기둥

LoRA: 거대 모델을 효율적으로 미세 조정하기

효율적 AI — 거대한 파라미터 덩어리를 소수의 우아한 곡선으로 압축하는 개념

KAN과 비교할 때 빠지지 않는 기술이 LoRA(Low-Rank Adaptation)입니다. 2021년 마이크로소프트 연구팀이 발표한 이 기법은 현재 AI 업계의 표준이 되었죠.

LoRA의 핵심 아이디어:

GPT-3 같은 175B 파라미터 모델을 새로운 작업에 맞추려면, 원래라면 175B개의 가중치를 모두 업데이트해야 합니다. LoRA는 이 거대한 가중치 행렬의 변화량이 낮은 랭크(low-rank)를 가진다는 것을 이용합니다.

쉽게 말해: 175B개의 손잡이를 모두 돌리지 않아도, 핵심 손잡이 수백 개만 돌리면 같은 효과를 얻을 수 있다.

결과는 놀랍습니다:

LoRA의 효율성 (GPT-3 175B 기준)
학습 파라미터 절감
10,000배 감소
GPU 메모리 절감
3배 감소
성능 (풀 파인튜닝 대비)
동등 이상

KAN과 LoRA의 공통 철학

KAN과 LoRA는 완전히 다른 기술이지만, 같은 철학을 공유합니다:

"모든 파라미터가 다 필요한 것은 아니다."

관점LoRAKAN
핵심 관찰가중치 업데이트는 낮은 랭크를 가진다다변수 함수는 일변수 함수들로 분해된다
전략큰 행렬 W를 작은 행렬 A×B로 근사가중치를 스플라인 함수로 대체
적용 대상기존 아키텍처의 미세 조정 기법완전히 새로운 아키텍처
결과적은 파라미터로 동일한 성능적은 파라미터로 동일 이상의 성능
철학실세계 문제는 겉보기보다 낮은 차원의 구조를 가지고 있다

둘의 공통된 통찰은 이겁니다: 실세계의 데이터와 문제는 이론적 차원보다 훨씬 낮은 내재적 차원(intrinsic dimensionality)을 가집니다. LoRA는 이것을 가중치 공간에서, KAN은 함수 공간에서 활용합니다.

2025년 이후: KAN + LoRA의 융합 가능성

이미 몇 가지 흥미로운 시도가 나타나고 있습니다:

  • P-KAN (2025): KAN의 파라미터를 최대 83%까지 줄이면서 정확도를 유지하는 기법
  • MetaKAN: 메타러닝을 활용해 KAN의 학습 비용을 MLP 수준으로 낮추는 연구
  • GS-KAN: 내부 함수를 공유하는 방식으로 파라미터를 절감

LoRA가 기존 거대 모델의 효율적 조정을 담당하고, KAN이 새로운 모델의 효율적 설계를 담당하는 — 효율적 AI의 양대 축이 형성되고 있습니다.


7장. KAN의 현재와 미래 — 과학 발견에서 양자 컴퓨팅까지

KAN을 활용한 과학 발견 — 분자 구조와 물리 법칙의 숨은 패턴을 찾는 AI 로봇 과학자

KAN 2.0: 과학과 만나다

2024년 8월, 같은 팀이 KAN 2.0 논문을 발표합니다. 이 논문은 Physical Review X(물리학 최고 저널 중 하나)에 게재되어, KAN이 단순한 ML 기법이 아니라 과학적 발견 도구임을 입증합니다.

KAN 2.0의 핵심 기능:

KAN 2.0 — 과학 발견을 위한 세 가지 도구
MultKAN
덧셈 외에 곱셈 노드도 지원 → 물리 법칙의 곱셈 구조 포착
Kanpiler
기호 수식 → KAN 자동 변환 컴파일러
Tree Converter
KAN → 트리 그래프 표현 변환으로 해석 가능성 극대화

KAN 2.0으로 발견한 것들: 보존량(conserved quantities), 라그랑지안(Lagrangians), 대칭성(symmetries), 구성 법칙(constitutive laws) — 물리학의 핵심 구조를 데이터로부터 자동 발견한 것입니다.

응용 분야 확장

분자 과학과 신약 개발:

  • KA-GNN (Nature Machine Intelligence, 2025): 그래프 신경망에 KAN을 결합하여 분자 속성 예측. 기존 MLP 기반 GNN을 능가
  • MOF-KAN (J. Phys. Chem. Letters, 2025): 금속유기골격체(MOF) 발견에 KAN 최초 적용. 특히 데이터가 적은 환경에서 MLP를 크게 앞섬
  • KANPM-DTA: 약물-표적 친화도 예측에서 기존 최고 모델 대비 MSE 4.4~6.4% 개선

양자 KAN (QKAN):

  • 2026년 npj Quantum Information에 게재
  • 양자 회로에 KAN 구조를 구현
  • 양자 특이값 변환을 통해 블록 인코딩 구성
  • "얕지만 지수적으로 넓은" 아키텍처로 양자 학습에 최적화

비전 트랜스포머에 KAN 적용 (KAT):

  • KAT(Kolmogorov-Arnold Transformer): ICLR 2025 채택
  • ViT(Vision Transformer)의 모든 MLP 층을 KAN으로 교체
  • B-스플라인 대신 Group-Rational 함수를 사용하여 GPU 효율성 문제 해결
  • ImageNet-1K에서 82.3% 정확도 — ViT-B 대비 3.1%p 향상

KAN 변종 생태계

2024~2025년 사이 폭발적으로 등장한 KAN 변종들:

변종핵심 혁신장점
FastKAN최적화된 B-스플라인 계산MLP 역전파 대비 ~2배 속도
FourierKANB-스플라인 대신 푸리에 급수 사용순전파(forward) 속도 향상
ChebyKAN체비셰프 다항식 사용가장 빠른 변종 중 하나
WavKAN웨이블릿 함수 사용다중 스케일 분석에 유리
P-KAN (2025)파라미터 축소 아키텍처파라미터 최대 83% 절감
AF-KAN (2025)활성화 함수 기반 접근최신 변종, 유연성 극대화

마치며: 130년의 메아리

이 이야기를 다시 처음으로 돌아가 봅시다.

1900년, 힐베르트는 "복잡한 것은 단순하게 풀 수 없다"고 추측했습니다. 1957년, 19세의 아르놀드와 그의 스승 콜모고로프가 "아니, 풀 수 있다"고 증명했습니다. 그리고 2024년, MIT의 연구자들이 이 정리를 "신경망으로 구현하면 어떨까?"라고 물었습니다.

그 질문의 답이 KAN입니다.

1900
힐베르트: "불가능하다" — 13번 문제 제시
1957
콜모고로프 & 아르놀드: "가능하다" — 정리 증명
1989
Cybenko: "MLP로 근사 가능하다" — 범용 근사 정리 (MLP 시대 개막)
2024
Ziming Liu et al.: "KAN으로 더 잘 된다" — KAN 논문 (ICLR 2025 채택)
2026
현재: KAN이 과학 발견, 분자 설계, 양자 컴퓨팅까지 확장 중

KAN은 MLP를 대체하지 않습니다. 대규모 언어 모델이나 이미지 분류 같은 범용 태스크에서는 여전히 MLP가 강하죠. 하지만 KAN이 여는 새로운 가능성은 분명합니다:

  1. 과학적 발견: 데이터에서 물리 법칙을 자동으로 찾아내는 AI
  2. 해석 가능한 AI: 블랙박스가 아닌, 인간이 이해하고 검증할 수 있는 AI
  3. 데이터 효율성: 적은 데이터로도 정확한 모델을 만드는 능력
  4. 파라미터 효율성: LoRA와 함께, "적게 배우고 잘 하는" AI의 양대 축

130년 전 힐베르트가 던진 질문은, 결국 "복잡한 세상을 단순하게 이해할 수 있는가?"라는 물음이었습니다. 콜모고로프-아르놀드 정리는 "네, 가능합니다"라고 답했고, KAN은 그 답을 실행 가능한 AI로 만들고 있습니다.

그리고 이 이야기는 아직 끝나지 않았습니다.


참고 문헌 및 출처

  • Hilbert, D. (1900). "Mathematische Probleme." 2nd International Congress of Mathematicians, Paris.
  • Arnold, V. I. (1957). "On functions of three variables." Doklady Akademii Nauk SSSR, vol. 114.
  • Kolmogorov, A. N. (1957). "On the representation of continuous functions of many variables by superposition of continuous functions of one variable and addition." Doklady Akad. Nauk SSSR, vol. 114.
  • Liu, Z. et al. (2024). "KAN: Kolmogorov-Arnold Networks." arXiv:2404.19756. ICLR 2025.
  • Liu, Z. et al. (2024). "KAN 2.0: Kolmogorov-Arnold Networks Meet Science." arXiv:2408.10205. Physical Review X (2025).
  • Hu, E. J. et al. (2021). "LoRA: Low-Rank Adaptation of Large Language Models." arXiv:2106.09685. ICLR 2022.
  • Yu, Z. et al. (2024). "KAN or MLP: A Fairer Comparison." arXiv:2407.16674.
  • Yang, C. & Wang, S. (2024). "Kolmogorov-Arnold Transformer." arXiv:2409.10594. ICLR 2025.
  • Li, H. et al. (2025). "KA-GNN: Kolmogorov-Arnold Graph Neural Networks." Nature Machine Intelligence, vol. 7.
  • Cybenko, G. (1989). "Approximation by superpositions of a sigmoidal function." Mathematics of Control, Signals and Systems, vol. 2.