GAN시계열금융 AI데이터 증강TransformerLSTM합성 데이터

금융 시계열의 데이터 부족을 GAN으로 해결한다 — Transformer 기반 합성 데이터 증강의 모든 것

금융 시장 데이터는 본질적으로 부족하고 변동이 크다. 바르샤바 공대 연구팀이 Transformer 기반 GAN으로 합성 금융 데이터를 생성해 LSTM 예측 정확도를 유의미하게 향상시킨 논문을 완전 해부한다.

코어닷투데이2025-12-2323분

들어가며

주식 가격을 예측하는 딥러닝 모델을 만들고 싶다고 하자. 당연히 데이터가 필요하다. 그런데 문제가 있다.

비트코인의 전체 역사는 약 15년치다. 하루 종가 기준으로 약 5,500개의 데이터 포인트. S&P 500은 1990년부터 잡아도 약 9,000개. ImageNet이 1,400만 장, GPT-3가 수천억 토큰으로 학습한 것과 비교하면, 금융 시계열 데이터는 압도적으로 부족하다.

그것만이 아니다. 금융 데이터에는 근본적인 비정상성(non-stationarity)이 있다. 2020년의 시장 패턴과 2024년의 시장 패턴은 다르다. 2008년 금융위기 전후의 데이터를 합쳐서 학습하면, 모델은 어디에도 속하지 않는 평균적 패턴만 배울 수 있다.

이 딜레마에 대한 답이 합성 데이터 증강(synthetic data augmentation)이다. 실제 데이터의 통계적 특성을 학습한 뒤, 그 특성을 공유하는 새로운 가상 데이터를 생성해 학습 세트를 확장하는 것이다.

2026년 2월, 바르샤바 공과대학교의 Andrzej Podobiński와 Jarosław A. Chudziak이 발표한 논문 "Financial time series augmentation using transformer based GAN architecture"는 이 접근의 가장 최신 연구 중 하나다. ICAART 2026(국제 에이전트 및 인공지능 학술대회)에 채택된 이 논문은, Transformer 기반 GAN(TTS-GAN)으로 합성 금융 데이터를 생성해 LSTM 예측 모델의 정확도를 통계적으로 유의미하게 향상시켰다.

이 글에서는 이 논문을 중심으로, GAN이 무엇인지부터, 왜 금융 시계열에 데이터 증강이 필요한지, 그리고 Transformer 기반 GAN이 어떻게 작동하는지를 완전히 풀어본다.

제1장: 왜 금융 데이터는 "항상 부족한가"

데이터 기근의 세 가지 원인

1. 절대적 양의 부족. 딥러닝은 데이터에 굶주린 기술이다. Kaplan et al.(2020)의 스케일링 법칙이 보여주듯, 모델 성능은 데이터 양에 멱법칙적으로 비례한다. 하지만 비트코인 10년치 일봉 데이터는 고작 ~3,650개. 여기서 학습/검증/테스트로 나누면 학습용은 ~2,200개. LSTM으로 90일 시퀀스를 만들면 겹치는 윈도우를 써도 수백 개 수준이다.

2. 비정상성(Non-stationarity). 금융 시장의 통계적 특성은 시간에 따라 변한다. 2024년 미국 대선 전후의 비트코인 가격과 변동성 그래프가 이 논문의 Figure 1에 등장한다 — 선거일(빨간 선)을 기준으로 변동성이 급변하는 것을 볼 수 있다. 오래된 데이터를 최근 데이터와 합치면 오히려 노이즈가 된다.

3. 레짐 변화(Regime shift). 강세장, 약세장, 횡보장 — 각 국면은 완전히 다른 통계적 특성을 가진다. 약세장 데이터로 학습한 모델을 강세장에 적용하면 성능이 급락한다. 하지만 특정 레짐의 데이터만 모으면 양이 더욱 줄어든다.

데이터가 부족하면 무슨 일이 벌어지는가

데이터 부족의 결과

과적합 (Overfitting) 모델이 학습 데이터의 노이즈까지 외워버린다. 학습 세트에서는 완벽하지만 새로운 데이터에서는 엉망.

일반화 실패 특정 시장 국면에서만 작동하고, 국면이 바뀌면 무력해진다.

복잡한 모델 사용 불가 Transformer 같은 고성능 아키텍처는 데이터를 더 많이 요구한다. 데이터가 부족하면 단순한 모델만 가능.

해법: "없으면 만들면 된다"

이미지 분야에서는 데이터 증강이 이미 표준이다. 이미지를 회전, 반전, 크롭, 색상 변환해 학습 데이터를 늘리는 기법은 모든 컴퓨터 비전 모델이 사용한다. 하지만 시계열 데이터에 이런 단순 변환을 적용하기는 어렵다. 주가 차트를 좌우 반전하면 시간이 거꾸로 가는 것이고, 무작위 크롭은 시간적 맥락을 파괴한다.

여기서 GAN이 등장한다. 단순 변환이 아니라, 데이터의 근본적 통계 구조를 학습한 뒤 완전히 새로운 시퀀스를 생성하는 것이다.

제2장: GAN — 위조범과 감별사의 게임

GAN의 핵심 아이디어 (2014)

GAN 학습 과정 — 위조범과 감별사

2014년, Ian Goodfellow 등이 발표한 GAN(Generative Adversarial Network)은 AI 역사에서 가장 영향력 있는 아이디어 중 하나다. 핵심은 두 신경망의 경쟁적 학습이다.

생성자(Generator): 랜덤 노이즈에서 가짜 데이터를 만든다. 목표는 감별자를 속이는 것.

감별자(Discriminator): 데이터가 진짜인지 가짜인지 판별한다. 목표는 속지 않는 것.

이 두 네트워크가 경쟁하며 동시에 학습한다. 생성자는 점점 더 정교한 가짜를 만들고, 감별자는 점점 더 정밀하게 진위를 판별한다. 충분히 학습되면, 생성자가 만든 데이터는 진짜와 구분이 불가능해진다.

비유하자면: 위조 화폐범(Generator)과 경찰 감별사(Discriminator)의 군비 경쟁이다. 위조범이 만든 지폐가 점점 정교해지고, 감별사의 눈도 점점 날카로워진다. 최종적으로 위조범의 지폐는 진폐와 구분할 수 없는 수준에 도달한다.

시계열 GAN의 역사

시계열에 GAN을 적용하려는 시도는 2017년부터 시작됐다.

모델	연도	아키텍처	한계
RCGAN	2017	RNN 기반	장기 의존성 학습 어려움
TimeGAN	2019	RNN + 지도 학습 손실	순차 처리의 본질적 한계
TTS-GAN	2022	Transformer 기반	바이오시그널에서만 검증
본 논문	2026	TTS-GAN 개선	금융 데이터에 최적화

초기 모델(RCGAN, TimeGAN)은 RNN(순환 신경망) 기반이었다. RNN은 시퀀스를 한 번에 하나씩 순차적으로 처리하므로, 장기 의존성을 포착하기 어렵다. 90일 전의 패턴이 오늘의 가격에 영향을 미치더라도, 그 연결을 학습하지 못한다.

Transformer의 등장이 판도를 바꿨다. Self-attention 메커니즘으로 시퀀스 전체를 병렬로 처리할 수 있어, 장기 의존성을 효과적으로 포착한다.

제3장: 논문의 접근법 — TTS-GAN을 금융에 적용하다

TTS-GAN 아키텍처

이 논문은 Li et al.(2022)이 바이오시그널 데이터를 위해 개발한 TTS-GAN(Transformer Time-Series GAN)을 가져와 금융 데이터에 맞게 개선했다.

TTS-GAN 아키텍처

생성자 (Generator) 랜덤 노이즈 입력 → 선형 변환
→ 위치 임베딩 → Transformer 인코더 (3블록)
→ Conv2D 채널 축소 → 합성 시계열 출력

감별자 (Discriminator) 진짜/합성 시계열 입력 → 위치 임베딩
→ Transformer 인코더 (3블록)
→ 분류 헤드 → 진짜/가짜 판별

핵심 기술적 개선점

논문의 저자들은 원본 TTS-GAN에서 두 가지를 개선했다:

1. PyTorch 네이티브 Transformer 사용. 원본 논문은 커스텀 Transformer 구현을 사용했지만, 이 논문은 PyTorch의 최적화된 네이티브 Transformer 모듈로 교체했다. 결과: 수렴 속도와 안정성이 크게 향상.

2. Simplified Gradient Penalty. GAN 학습의 고질적 문제인 불안정성을 해결하기 위해, Mescheder et al.(2018)이 제안한 "단순화된 그래디언트 페널티"를 도입했다. 진짜 샘플에만 적용되는 이 기법이 생성자와 감별자의 균형 잡힌 수렴을 보장한다.

하이퍼파라미터 최적화 결과

흥미로운 발견이 있다. 감별자가 생성자보다 훨씬 큰 용량을 필요로 했다.

구성요소	인코더 블록	어텐션 헤드	임베딩 크기	패치 크기
생성자	3	5	10	15
감별자	3	30	90	15

감별자의 임베딩 크기(90)가 생성자(10)의 9배, 어텐션 헤드(30)가 생성자(5)의 6배다. 금융 시계열의 미묘한 패턴을 구분하려면 감별자가 훨씬 정교해야 한다는 뜻이다 — "진짜 같은 가짜를 만드는 것"보다 "가짜를 찾아내는 것"이 더 어려운 과제인 셈이다.

예측 모델: 의도적으로 단순한 LSTM

논문은 예측 모델로 표준 LSTM(hidden size 64, 3층, dropout 0.2)을 사용했다. 더 강력한 Transformer 예측 모델이 존재하지만, 데이터 증강의 효과를 순수하게 분리하기 위해 의도적으로 단순한 모델을 선택했다.

이것은 실험 설계의 핵심이다. 복잡한 모델을 쓰면, 성능 향상이 모델 아키텍처 덕인지 데이터 증강 덕인지 구분하기 어렵다.

제4장: DTW DeD-iMs — 합성 데이터의 품질을 어떻게 측정하는가

GAN 학습의 딜레마: 손실 함수는 무의미하다

GAN 학습에서 특이한 점은, 손실 값으로 학습 진행 상황을 판단할 수 없다는 것이다.

생성자 손실: $\mathcal{L}_G = \text{MSE}(D(G(z)), 1)$

감별자 손실: $\mathcal{L}_D = \text{MSE}(D(\text{real}), 1) + \text{MSE}(D(G(z)), 0)$

이 두 손실은 서로의 함수다. 감별자가 잘할수록 생성자 손실이 올라가고, 생성자가 잘할수록 감별자 손실이 올라간다. 두 손실이 동시에 줄어드는 것이 아니므로, 일반적인 학습처럼 "손실이 줄어들면 좋은 것"이라고 판단할 수 없다.

기존 접근: Wasserstein 거리의 한계

기존에는 Wasserstein 거리로 합성 데이터와 실제 데이터의 유사도를 측정했다. 하지만 Wasserstein 거리는 데이터를 확률 분포로 취급하기 때문에, 시계열에서 핵심인 시간적 순서와 위상 정렬을 무시한다.

예를 들어, 두 주가 시퀀스가 같은 값 분포를 가지지만 하나는 상승→하락이고 다른 하나는 하락→상승이면, Wasserstein 거리는 이를 동일하게 평가한다. 하지만 금융적으로 이 두 패턴은 완전히 다르다.

논문의 제안: DTW DeD-iMs

논문은 두 가지 측정을 결합한 새로운 메트릭 DTW DeD-iMs를 제안한다.

DTW(Dynamic Time Warping): 두 시퀀스의 시간적 정렬 비용을 측정한다. 시퀀스가 약간 늘어나거나 줄어들어도 유사한 패턴을 감지할 수 있는 "탄력적" 거리 측정법이다.

$D_{i,j}(x,y) = f(x_i, y_j) + \min\{D_{i,j-1}, D_{i-1,j}, D_{i-1,j-1}\}$

여기서 $f(x_i, y_j) = (x_i - y_j)^2$

DeD-iMs(Deep Dataset Dissimilarity Measure): 개별 샘플이 아닌 데이터셋 전체 간의 유사도를 측정하는 프레임워크. 두 데이터셋에서 샘플을 추출하고, 각 샘플과 가장 가까운 상대 데이터셋 샘플 사이의 거리를 계산한 뒤, 자기 데이터셋 내부의 거리와 비교한다.

DTW + DeD-iMs = DTW DeD-iMs: 개별 샘플 간 거리를 DTW로 측정하고, 데이터셋 수준의 비교는 DeD-iMs 프레임워크를 사용한다. 이렇게 하면 시간적 충실도(temporal fidelity)와 분포적 유사성(distributional similarity)을 모두 평가할 수 있다.

Wasserstein vs DTW DeD-iMs: 실험적 증거

논문의 Figure 3에서 결정적 차이가 드러난다. Wasserstein 거리는 학습 중 빠르게 수렴해 평탄해진다 — 더 이상 개선 여부를 알 수 없다. 반면 DTW DeD-iMs는 후반 에폭에서도 계속 선형으로 감소한다. 전체 분포는 이미 비슷해졌지만 시간적 패턴의 충실도가 계속 향상되고 있음을 포착하는 것이다.

제5장: 실험 설계와 결과

실험 설계: 40개 독립 시간 창

이 논문의 실험 설계에서 가장 인상적인 부분은 엄격함이다.

데이터

비트코인(최근 10년 일봉)과 S&P 500(1990-2025) 가격 데이터에서 겹치지 않는 40개 시간 창을 추출. 각 창이 독립적인 실험 단위.

시퀀스 구성

두 가지 길이: K=90(관측 60 + 예측 30) / K=120(관측 80 + 예측 40). 각 창에서 약 340-890개 샘플.

전처리

지수 이동평균 스무딩 + 샘플별 독립 MinMax 정규화. 정규화는 관측 구간(T)의 값만 사용 — 미래 정보 누출 방지.

증강 전략

1:1 비율로 합성 데이터를 추가. 학습 세트 크기를 2배로. GAN은 학습+검증 세트로만 학습, 테스트 세트는 절대 미노출.

40개 창을 사용하는 이유: 금융 시장의 비정상성 때문에, 단일 시간 구간에서의 결과는 신뢰할 수 없다. 강세장, 약세장, 고변동/저변동 등 다양한 시장 국면에서 테스트해야 방법론의 강건성을 확인할 수 있다.

핵심 결과

MSE 개선량 (증강 vs 미증강, 낮을수록 좋음)

Bitcoin K=120

0.132 (p=0.003)

Bitcoin K=90

0.102 (p=0.002)

S&P500 K=120

0.044 (p=0.007)

S&P500 K=90

0.037 (p=0.006)

모든 4개 실험 조건에서 증강이 MSE를 줄였다. p-value가 모두 0.01 미만으로 통계적으로 매우 유의미하다.

핵심 인사이트 3가지

1. 데이터가 부족할수록 효과가 크다. 비트코인(더 작은 데이터셋, 더 높은 변동성)에서의 MSE 개선량이 S&P500보다 2-3배 컸다. 논문의 핵심 전제 — "데이터가 부족하고 변동적일수록 증강의 이점이 크다" — 와 정확히 일치한다.

2. 긴 시퀀스에서 더 큰 효과. K=120에서의 개선량이 K=90보다 일관되게 컸다. 더 긴 예측 구간은 더 많은 데이터를 필요로 하므로, 증강의 효과가 더 두드러진다.

3. 작지만 일관된 개선. 절대적 개선량이 크지 않아 보일 수 있지만, 40개 독립 시간 창에서 일관되게 나타났다는 점이 핵심이다. 금융 예측에서 작고 일관된 개선은 실제 수익으로 직결된다.

제6장: 2026년의 맥락에서 — 이 연구가 왜 중요한가

합성 데이터 시장의 폭발

합성 데이터는 금융뿐 아니라 AI 전반의 메가트렌드다. Gartner는 2025년까지 AI 모델 학습의 60%가 합성 데이터를 사용할 것으로 예측했다. 헬스케어, 자율주행, 사이버보안 등에서 프라이버시 제약이나 데이터 부족 문제를 합성 데이터로 해결하고 있다.

금융 분야에서 합성 데이터의 추가적 이점:

규제 준수: 실제 거래 데이터를 외부에 공유하지 않고도 모델을 개발할 수 있다
극단적 시나리오 생성: 실제로는 드문 시장 붕괴나 급등 패턴을 합성해 모델의 강건성을 테스트
전략 검증: 알고리즘 트레이딩 전략을 다양한 합성 시장 시나리오에서 테스트

논문의 미래 방향: 시장 레짐 감지

논문의 가장 흥미로운 미래 제안은 감별자를 시장 레짐 변화 감지에 활용하는 것이다.

GAN의 감별자는 "이 데이터가 학습 분포와 다른가?"를 판단하는 전문가다. 만약 실시간 시장 데이터를 감별자에 넣었을 때 "이건 내가 본 패턴이 아니다"라고 판단한다면, 시장 레짐이 변했다는 신호일 수 있다. 이 신호를 포착하면 생성자를 재학습시키고, 새로운 합성 데이터로 예측 모델을 업데이트하는 자기 적응적 시스템을 만들 수 있다.

Transformer 예측 모델과의 시너지

논문이 의도적으로 LSTM을 사용한 이유는 순수 실험 목적이었다. 하지만 저자들도 인정하듯, Transformer 기반 예측 모델(Szydlowski and Chudziak, 2024)은 더 많은 데이터를 필요로 하고 과적합에 더 취약하다. 바로 그 특성이 데이터 증강의 잠재적 이점을 더 크게 만든다.

2026년 현재, 금융 시계열 예측에서 Transformer 아키텍처(Informer, Autoformer, PatchTST 등)가 주류가 되고 있다. 이들에 TTS-GAN 증강을 적용하면, LSTM에서 보인 것보다 더 큰 성능 향상이 기대된다.

마치며

이 논문의 메시지를 한 문장으로 압축하면:

금융 시계열의 고질적 데이터 부족 문제를, Transformer 기반 GAN이 생성한 고품질 합성 데이터로 유의미하게 완화할 수 있다.

특별히 기여가 큰 세 가지:

실험적 엄밀함 — 40개 독립 시간 창, 통계적 검정, 의도적으로 단순한 예측 모델 사용
DTW DeD-iMs 메트릭 — Wasserstein 거리가 놓치는 시간적 충실도까지 포착하는 새로운 평가 기준
실용적 함의 — 금융 AI 실무자가 당장 적용할 수 있는 구체적 파이프라인 제시

금융 AI에서 "데이터가 부족하다"는 불만은 오래됐다. 이 논문은 그 불만에 대한 구체적이고 검증된 해법을 제시한다. GAN이 만든 "가짜" 데이터가, 예측 모델을 "진짜로" 더 정확하게 만든다는 아이러니 — 그것이 이 연구의 본질이다.

참고 논문:

Podobiński, A. & Chudziak, J.A. (2026). "Financial time series augmentation using transformer based GAN architecture." ICAART 2026. arXiv:2602.17865.
Goodfellow, I. et al. (2014). "Generative Adversarial Nets." NeurIPS 2014.
Yoon, J. et al. (2019). "Time-series Generative Adversarial Networks." NeurIPS 2019.
Li, X. et al. (2022). "TTS-GAN: A Transformer-based Time-Series Generative Adversarial Network." AIME 2022.
Fons, E. et al. (2020). "Evaluating data augmentation for financial time series classification." arXiv:2010.15111.

기술2026.02.24

금융 시계열의 데이터 부족을 GAN으로 해결한다 — Transformer 기반 합성 데이터 증강의 모든 것

들어가며

제1장: 왜 금융 데이터는 "항상 부족한가"

데이터 기근의 세 가지 원인

데이터가 부족하면 무슨 일이 벌어지는가

해법: "없으면 만들면 된다"

제2장: GAN — 위조범과 감별사의 게임

GAN의 핵심 아이디어 (2014)

시계열 GAN의 역사

제3장: 논문의 접근법 — TTS-GAN을 금융에 적용하다

TTS-GAN 아키텍처

핵심 기술적 개선점

하이퍼파라미터 최적화 결과

예측 모델: 의도적으로 단순한 LSTM

제4장: DTW DeD-iMs — 합성 데이터의 품질을 어떻게 측정하는가

GAN 학습의 딜레마: 손실 함수는 무의미하다

기존 접근: Wasserstein 거리의 한계

논문의 제안: DTW DeD-iMs

Wasserstein vs DTW DeD-iMs: 실험적 증거

제5장: 실험 설계와 결과

실험 설계: 40개 독립 시간 창

핵심 결과

핵심 인사이트 3가지

제6장: 2026년의 맥락에서 — 이 연구가 왜 중요한가

합성 데이터 시장의 폭발

논문의 미래 방향: 시장 레짐 감지

Transformer 예측 모델과의 시너지

마치며

관련 포스트

Transformer 특집: 순서를 기억하는 기계에서 모든 것을 한눈에 보는 기계로

UAT에서 LoRA까지: 신경망이 세상을 배우는 수학적 여정

X의 'For You' 피드는 어떻게 당신의 마음을 읽을까 — 오픈소스로 공개된 추천 알고리즘 완전 해부

Mamba SSM 완전 정복: Transformer의 왕좌를 위협하는 '선택적 기억'의 혁명