coredot.today
합성 데이터와 데이터 플라이휠: 인간의 데이터가 바닥날 때
블로그로 돌아가기
합성 데이터데이터 플라이휠모델 붕괴RLHF지식 증류

합성 데이터와 데이터 플라이휠: 인간의 데이터가 바닥날 때

인류가 만든 텍스트가 2028년이면 소진된다. 합성 데이터는 해답인가 함정인가? 1970년대 데이터 증강에서 2026년 자기 진화 플라이휠까지, 데이터의 미래를 논문과 프로덕션 사례로 추적한다.

코어닷투데이2026-03-1427

들어가며: 데이터의 벽

AI 산업에는 아무도 크게 말하지 않는 불편한 진실이 하나 있다. 인류가 만든 텍스트가 곧 바닥난다.

Epoch AI의 Pablo Villalobos 등이 발표한 연구(ICML 2024)에 따르면, 품질 보정된 공개 텍스트의 총량은 약 300조 토큰이다. 80% 신뢰 구간으로 이 자원이 완전히 소진되는 시점은 2026년에서 2032년 사이. PBS News는 더 직접적으로 보도했다: "AI 챗봇 학습 데이터용 인간 작성 텍스트가 빠르면 2026년에 소진될 수 있다."

300조 토큰 공개 텍스트 총량 (품질 보정)
2028 데이터 벽 도달 예상 컴퓨트 최적 학습 기준
80% 2028년 학습 데이터 중 합성 비율 Gartner 예측
51건+ AI 저작권 소송 NYT vs OpenAI 등 진행 중

동시에 법적 벽도 높아지고 있다. 뉴욕타임스 vs OpenAI 소송(2023.12 제기)에서 2025년 4월 법원이 핵심 저작권 침해 청구의 기각을 거부했고, 51건 이상의 저작권 소송이 AI 기업들을 압박하고 있다.

데이터가 바닥나고, 남은 데이터에 법적 문제가 있다면? 해답은 하나다: 합성 데이터(Synthetic Data).

그런데 합성 데이터에는 치명적 함정이 있다. AI가 만든 데이터로 AI를 학습시키면 모델이 붕괴한다. 이 역설을 어떻게 해결하는가? 그 답이 데이터 플라이휠이다.


제1장: 합성 데이터의 역사 — 1970년대에서 GAN까지

합성 데이터는 새로운 것이 아니다

합성 데이터의 역사는 1970년대로 거슬러 올라간다. 당시 제한된 처리 능력과 프라이버시 우려가 합성 데이터 생성을 촉발했다. 컴퓨터 비전에서는 **Pratt et al. (1978)**이 통제된 이미지 생성으로 이미지 처리 방법을 분석했고, 1987년에는 Navlab 자율주행 차량이 1,200장의 합성 도로 이미지로 학습했다.

하지만 합성 데이터를 근본적으로 바꾼 전환점은 하나다.

GAN: 이안 굿펠로우의 하룻밤 (2014)

2014년 6월 10일, **이안 굿펠로우(Ian Goodfellow)**가 "Generative Adversarial Networks"를 발표했다. 술집에서의 토론 후 하룻밤 만에 코딩한 프로토타입이 첫 시도에 작동했다는 전설적인 기원 이야기와 함께.

GAN의 핵심: **생성자(G)**와 판별자(D) 두 모델을 동시에 훈련. 생성자는 진짜 같은 데이터를 만들려 하고, 판별자는 진짜와 가짜를 구별하려 한다. 이 적대적 경쟁이 점점 더 사실적인 데이터를 만들어낸다.

GAN 이후 수백 편의 관련 논문이 발표되었고, 고해상도 이미지의 사실적 생성이 처음으로 가능해졌다. 이것이 2020년대 합성 데이터 산업의 기반을 놓았다.

자율주행의 교훈: 시뮬레이션이 현실을 이긴다

Waymo: 공도에서 약 2억 마일의 완전 자율주행, 시뮬레이션에서 200억 마일 이상 학습. 2026년 2월에는 Waymo World Model을 공개 — 현실에서 절대 발생하지 않을 시나리오까지 카메라와 라이다 데이터를 생성하는 프론티어 생성 모델.

Tesla의 Data Engine: 모든 Tesla 차량에서 두 FSD 시스템이 동시 작동 — 하나는 운전, 하나는 "쉐도우 모드"로 부정확함을 기록. 불일치가 발생하면 플릿 전체에서 더 많은 사례를 수집하고, 인간이 레이블링하여 학습에 반영. FSD v12는 30만 줄의 제어 코드를 2,0003,000줄의 신경망 관리 코드로 축소했다.

Tesla의 플라이휠: 더 많은 차 → 더 많은 데이터 → 더 나은 FSD → 더 많은 차.


제2장: 합성 데이터의 과학 — "교과서만 있으면 된다"

Phi-1: 작은 모델, 합성 데이터의 승리 (Microsoft, 2023)

2023년 6월, Microsoft의 Suriya Gunasekar 등이 "Textbooks Are All You Need"를 발표했다. 13억 파라미터의 작은 모델 phi-1이 A100 8대로 4일 만에 학습되었다.

핵심: 학습 데이터의 대부분이 GPT-3.5로 합성 생성된 교과서와 연습 문제 (10억 토큰)였다.

결과:

phi-1 (1.3B) HumanEval 성능
phi-1 (1.3B)
50.6%
phi-1-small (350M)
45.0%

13억 파라미터 모델이 수십~수백배 큰 모델과 경쟁할 수 있었다. 핵심 교훈: 고품질 합성 데이터 > 대량의 미필터링 데이터.

Stanford Alpaca: $500으로 GPT-3.5급 모델 (2023)

Stanford가 2023년 3월, LLaMA 7B를 text-davinci-003이 생성한 52K 명령어-수행 데모로 파인튜닝했다. Self-Instruct 방식을 간소화한 파이프라인. 데이터 생성 총비용: $500 미만.

결과: 단일 턴 명령어 수행에서 text-davinci-003과 질적으로 유사한 성능. 이 연구는 "소규모 팀도 합성 데이터로 경쟁력 있는 모델을 만들 수 있다"는 가능성을 열었다.

Cosmopedia: 역대 최대 오픈 합성 데이터셋 (HuggingFace, 2024)

HuggingFace가 만든 3,000만+ 파일, 250억 토큰의 합성 데이터셋. Mixtral-8x7B-Instruct가 H100 10,000시간 이상에 걸쳐 생성. 합성 교과서, 블로그 포스트, 스토리, WikiHow 문서를 포함. 중복 콘텐츠율 1% 미만.

NVIDIA Nemotron: 정렬 데이터의 98%가 합성 (2024)

2024년 6월, NVIDIA의 Nemotron-4 340B는 정렬 데이터의 98% 이상이 합성 생성이었다. Nemotron-4-340B-Instruct가 생성하고, Nemotron-4-340B-Reward가 5가지 속성(유용성, 정확성, 일관성, 복잡성, 장황함)으로 순위를 매기고 필터링하는 파이프라인을 오픈소스로 공개했다.


제3장: 모델 붕괴 — 합성 데이터의 치명적 함정

AI가 AI의 데이터로 학습하면 무슨 일이 일어나는가

합성 데이터의 매력적인 가능성 이면에는 치명적 위험이 있다. **Shumailov et al.**이 2024년 Nature에 발표한 "The Curse of Recursion"이 그것을 증명했다.

핵심 발견: 모델 생성 콘텐츠를 무분별하게 사용하면 되돌릴 수 없는 결함이 발생한다. 원래 분포의 꼬리(tail)가 사라진다.

⚠️
모델 붕괴(Model Collapse): AI가 생성한 데이터로 AI를 학습시키면, 원래 데이터 분포의 다양성이 세대를 거듭하며 소실된다. 이것은 VAE, GMM, LLM 모두에서 발생하며, 한번 일어나면 되돌릴 수 없다.

MAD: 모델 자가 소화 장애 (ICLR 2024)

**Alemohammad et al.**이 ICLR 2024에서 발표한 "Self-Consuming Generative Models Go MAD"는 이 현상에 이름을 붙였다 — 광우병에 비유한 Model Autophagy Disorder (MAD).

완전 자가 소화 (자기 출력만으로 학습) 시 4~5세대 만에 출력이 평균값으로 수렴. 얼굴 데이터셋의 경우 격자 모양의 인공물이 나타나거나, 모든 얼굴이 같은 사람처럼 보이기 시작한다.

통제하지 않으면 "인터넷 전체의 데이터 품질과 다양성을 오염시킬 수 있는" 종말적 시나리오.

예방 전략

모델 붕괴 예방 전략
신선한 실제 데이터 주입 합성-실제 비율 유지
합성 데이터 워터마킹 식별 및 제거 가능하게
데이터 계보 추적 무엇이 생성됐고 언제인지
도메인 전문가 참여 (HITL) 생성 + 검토 루프에 인간 개입

Gartner의 경고: "2027년까지 합성 데이터 품질 관리 실패로 D&A 전략의 80%가 거버넌스 실패를 겪을 수 있다."

모델 붕괴의 해법은 결국 데이터 플라이휠 — 합성 데이터와 인간 판단을 체계적으로 순환시키는 구조다.


제4장: 데이터 플라이휠 — 순환이 만드는 경쟁력

짐 콜린스의 플라이휠, 데이터에 적용되다

**짐 콜린스(Jim Collins)**가 2001년 Good to Great에서 제시한 플라이휠 개념: 무거운 바퀴를 돌리는 데 처음에는 엄청난 힘이 필요하지만, 일단 속도가 붙으면 관성이 스스로를 유지한다.

데이터 플라이휠은 이 원리를 AI에 적용한 것이다:

제품 배포사용자 인터랙션
피드백 수집모델 개선
더 나은 제품더 많은 사용자 ⟳

Amazon의 정석적 사례: 낮은 가격 → 더 많은 고객 → 더 많은 판매자 → 더 넓은 선택 → 더 나은 경험 → 더 많은 고객. 추천 엔진이 총 매출의 **35%**를 견인하며, 3억+ 고객이 매 초 행동 데이터를 생성한다.

Airbnb AITL: 가장 상세한 프로덕션 플라이휠 (EMNLP 2025)

Cen (Mia) Zhao 등 Airbnb 연구자들의 Agent-in-the-Loop(AITL) 프레임워크는 2026년 현재 가장 상세하게 문서화된 프로덕션 데이터 플라이휠이다.

라이브 고객 인터랙션 중 4가지 어노테이션을 수집:

  1. 쌍별 응답 선호 2. 채택 근거 3. 지식 관련성 점수 4. 누락 지식 식별

40명 에이전트, 5,000+ 케이스, 에이전트당 일 ~11건 어노테이션:

+11.7% 검색 재현율
+14.8% 검색 정밀도
+8.4% 생성 유용성
+38.1% 인용 정확도

가장 인상적 성과: 재학습 주기가 3개월 → 수 주로 단축. 피드백이 일상 워크플로우에 통합되어 한계 비용이 거의 제로. 2026년 2월 기준 AI가 미국/캐나다 고객 지원의 약 33%를 처리한다.

NVIDIA 데이터 플라이휠 블루프린트: 98.6% 비용 절감

NVIDIA의 자기 개선 루프: NeMo + NIM 마이크로서비스로 프로덕션 데이터에서 소형 모델을 증류·파인튜닝·평가.

실전 테스트: 내부 HR 챗봇의 도구 호출 유스케이스에서 파인튜닝된 llama-3.2-1b-instruct가 70B 모델 대비 ~98% 정확도 달성. 추론 비용 98.6% 절감 (GPU 2대 → 1대).

이것이 지식 증류와 데이터 플라이휠의 결합이다: 큰 모델이 합성 학습 데이터를 생성 → 작은 모델이 학습 → 프로덕션에서 작은 모델 사용 → 실패 사례가 새 학습 데이터가 됨 → 순환.

DoorDash: 시뮬레이션 플라이휠로 환각 90% 감소

DoorDash는 LLM 챗봇 시뮬레이터를 구축하여 과거 상담 내역에서 멀티턴 합성 대화를 생성. LLM-as-judge 프레임워크로 결과 평가. 엔지니어가 실패 식별 → 평가 체크 추가 → 타겟 시뮬레이션 생성 → 개선 검증.

이 프레임워크를 통한 컨텍스트 엔지니어링 개선으로 환각률 ~90% 감소 — 배포 전에.


제5장: 2026년 최전선 — 합성 데이터의 현재

추론 능력의 합성 학습: DeepSeek R1과 OpenAI o-시리즈

DeepSeek R1 (Nature, 2025): R1-Zero 변형은 SFT 없이 순수 강화학습으로 학습. RL 수렴 근처에서 거부 샘플링(rejection sampling) — 모델이 스스로의 출력 중 최고를 선별하여 자기 학습 데이터를 생성. 자기 성찰, 검증, 동적 전략 적응이 창발적으로 등장.

OpenAI o1/o3: 내부 추론 모델이 생성한 합성 Chain-of-Thought 예시로 학습. AI "판사" 모델이 품질을 평가. 학습 시 컴퓨팅(더 많은 RL)과 추론 시 컴퓨팅(더 깊은 생각) 모두에서 성능이 향상.

LANCE: LLM이 스스로 데이터 엔지니어가 되다 (EMNLP 2025)

LANCE는 LLM이 자율적으로 데이터를 생성·정제·검토·어노테이션하는 프레임워크. Qwen2-7B에서 평균 +3.64점 향상, GSM8K 수학에서 +19.18점.

합성 데이터의 비용 혁명

💰 실제 데이터
이미지 1장 레이블링: ~$6
인간 선호 비교 1건: ~$1+
전통 익명화로 유용성 30-50%↓
재식별 위험 최대 15%
⚡ 합성 데이터
이미지 1장 합성: ~$0.06 (100배↓)
AI 피드백 1건: < $0.01
프라이버시 문제 원천 차단
10배 스케일업 추가 비용 없음

기업들이 보고하는 데이터 수집/레이블링 비용 80~99% 절감, 시장 출시 시간 50% 단축, 최고 성과 기업 300~500% ROI.

엔터프라이즈 합성 데이터: 프라이버시와 규제

의료: 합성 환자 데이터로 데이터 활용 계약, 프로토콜 제출, 윤리 승인 없이 ML 모델 개발 가능.

금융: 합성 거래 데이터가 프로덕션 데이터 대비 96~99% 유용성 동등성 달성. AML 테스트에서 사기 탐지 15~20% 향상, KYC 비용 $1~2M 절감.

EU AI Act 제50조: AI 시스템이 합성 콘텐츠를 생성하면 기계 판독 가능 형식으로 인공 생성임을 표시해야 함. 2026년 8월 시행.


제6장: 도움이 될 때 vs 해가 될 때 — 의사결정 프레임워크

합성 데이터가 도움이 되는 경우

  • 롱테일/희귀 케이스 증강: 실제 데이터에서 드문 시나리오를 합성으로 보완
  • 프라이버시 보호: 민감한 필드를 합성 데이터로 대체
  • 불균형 학습 보정: 과소 대표 클래스를 합성으로 증강
  • 시나리오 모델링: 도달하기 어려운 대상에 대한 시뮬레이션

합성 데이터가 해가 되는 경우

  • "로컬 대칭" 영역: 불균형이 지배적 오류 원인이 아닐 때
  • 생성기 불일치 증폭: 생성 모델이 도메인을 제대로 포착하지 못할 때
  • 비현실적 패턴 과적합: 합성 데이터 고유의 아티팩트를 학습
  • 데이터 드리프트 증폭: 합성이 실제 분포 변화를 반영하지 못할 때
  • "합성 신뢰": 인공 데이터로 학습된 모델에 대한 부당한 확신

실전 프레임워크

명확한 비즈니스 질문에서 시작
실제 데이터 홀드아웃 셋으로 검증
합성-실제 비율 유지 (희석 방지)
도메인 전문가의 생성·검토 참여 (HITL)
VTSS로 검증 손실 최소화 지점 탐색

제7장: 인간의 자리 — HITL이 플라이휠의 품질을 보장하는 방법

"합성 전부, 인간 제로"가 아니다

2026년의 합의: "종착지는 '전부 합성, 인간 없음'이 아니라, 합성 데이터가 ML 스택의 표준 구성 요소가 되어 인간 판단을 대체하는 것이 아닌 확장하는 것이다."

경쟁 우위는 "누가 가장 똑똑한 플라이휠을 돌리는가"에 있다: 큐레이션된 인간 코퍼스 + 규율 있는 합성 생성 + HITL 선별 + 실제 데이터에 대한 끈질긴 검증.

Constitutional AI: 자동화된 HITL의 원형

Anthropic의 Constitutional AI(2022)는 합성 데이터와 HITL의 접점을 보여주는 원형이다.

1단계: 모델이 헌법 원칙에 따라 스스로를 비판·수정 (합성 개선 데이터 생성) 2단계: AI가 두 출력 중 나은 것을 평가 (합성 선호 데이터 생성)

결과: 파레토 개선 — 더 유용하면서 더 무해한 모델. 유해성에 대해 인간 레이블 제로. 하지만 인간이 사라진 것이 아니다 — 인간은 원칙을 설계했다. 전편에서 다뤘듯, 개별 판단에서 원칙 설계로의 추상화다.

합성-인간 융합 모델

RLAIF(AI 피드백에서 학습)가 RLHF(인간 피드백에서 학습)와 동등한 성능을 달성하는 영역이 늘고 있다. Google의 RLAIF 논문: 요약, 유용한 대화, 무해한 대화에서 RLAIF가 RLHF 성능에 매칭. 무해한 대화에서 RLAIF는 88% 무해율로 RLHF와 SFT 모두를 능가.

그러나 중요한 주의점: AI 교사가 일부 데이터셋에서 원래 인간 선호의 약 50%를 뒤집는다는 연구도 있다. 노이즈 강건 방법이 필요하다.


제8장: 한국의 위치 — 데이터 주권과 합성 데이터

한국은 합성 데이터에서 독특한 위치에 있다.

네이버: 아시아 최대 단일 기업 데이터센터(GAK 세종, 294,000㎡, 65엑사바이트 저장) 구축. HyperClovaX는 GPT-4 대비 한국어 데이터 6,500배 규모로 학습.

한국 정부는 네이버 클라우드, 업스테이지, SK텔레콤, NCSOFT, LG AI Research의 **5개 "정예 팀"**을 주권 AI 모델 개발을 위해 지원하고 있다. NVIDIA는 한국 정부·산업체와 $650억 AI 인프라 생태계 파트너십을 체결했다.

한국어 데이터는 영어에 비해 절대량이 적다. 이것은 데이터 벽에 더 빨리 도달한다는 의미이며, 동시에 합성 데이터의 가치가 더 크다는 의미이기도 하다. 한국어 고품질 합성 데이터 생성 능력이 한국 AI 경쟁력의 핵심 변수가 된다.


맺으며: 데이터의 미래는 순환에 있다

이 글의 핵심 서사를 압축하면:

  1. 데이터 벽이 온다 — 인간 텍스트는 유한하고, 법적 제약은 강화된다
  2. 합성 데이터가 해답이지만 함정도 있다 — 모델 붕괴는 실재하는 위험이다
  3. 데이터 플라이휠이 두 문제를 동시에 해결한다 — 합성 생성 + 인간 검증의 순환
🎯
2026년의 합의: "진지한 AI 시스템은 큐레이션된 인간 데이터(골드 셋)와 신중하게 생성된 합성 예시를 혼합한다." 순수 합성 학습은 "품질 천장"에 부딪히며, 원본의 한계를 미러링하는 "모조품"을 만든다. Gartner의 2030년 예측(합성이 실제를 "완전히 압도")은 양적 지배를 의미하지, 인간 데이터의 제거를 의미하지 않는다.

코어닷투데이의 모든 AI 제품에서 이 플라이휠은 작동하고 있다. AI 아르스 키오스크의 인터랙션 데이터가 경험을 개선하고, 의정지원 AI의 정책 전문가 피드백이 모델을 정교화하며, Sharp-PINN의 검사 결과가 물리 시뮬레이션을 보정한다. 합성 데이터는 이 순환을 가속하는 연료이고, 인간의 판단은 순환의 방향을 잡는 조타수다.

위너가 사이버네틱스를 만들 때 말했듯 — 시스템이 아무리 자동화되어도, 방향을 결정하는 것은 조타수다. 데이터 플라이휠에서 그 조타수는 여전히 인간이다.