
합성 데이터와 데이터 플라이휠: 인간의 데이터가 바닥날 때
인류가 만든 텍스트가 2028년이면 소진된다. 합성 데이터는 해답인가 함정인가? 1970년대 데이터 증강에서 2026년 자기 진화 플라이휠까지, 데이터의 미래를 논문과 프로덕션 사례로 추적한다.

인류가 만든 텍스트가 2028년이면 소진된다. 합성 데이터는 해답인가 함정인가? 1970년대 데이터 증강에서 2026년 자기 진화 플라이휠까지, 데이터의 미래를 논문과 프로덕션 사례로 추적한다.
AI 산업에는 아무도 크게 말하지 않는 불편한 진실이 하나 있다. 인류가 만든 텍스트가 곧 바닥난다.
Epoch AI의 Pablo Villalobos 등이 발표한 연구(ICML 2024)에 따르면, 품질 보정된 공개 텍스트의 총량은 약 300조 토큰이다. 80% 신뢰 구간으로 이 자원이 완전히 소진되는 시점은 2026년에서 2032년 사이. PBS News는 더 직접적으로 보도했다: "AI 챗봇 학습 데이터용 인간 작성 텍스트가 빠르면 2026년에 소진될 수 있다."
동시에 법적 벽도 높아지고 있다. 뉴욕타임스 vs OpenAI 소송(2023.12 제기)에서 2025년 4월 법원이 핵심 저작권 침해 청구의 기각을 거부했고, 51건 이상의 저작권 소송이 AI 기업들을 압박하고 있다.
데이터가 바닥나고, 남은 데이터에 법적 문제가 있다면? 해답은 하나다: 합성 데이터(Synthetic Data).
그런데 합성 데이터에는 치명적 함정이 있다. AI가 만든 데이터로 AI를 학습시키면 모델이 붕괴한다. 이 역설을 어떻게 해결하는가? 그 답이 데이터 플라이휠이다.
합성 데이터의 역사는 1970년대로 거슬러 올라간다. 당시 제한된 처리 능력과 프라이버시 우려가 합성 데이터 생성을 촉발했다. 컴퓨터 비전에서는 **Pratt et al. (1978)**이 통제된 이미지 생성으로 이미지 처리 방법을 분석했고, 1987년에는 Navlab 자율주행 차량이 1,200장의 합성 도로 이미지로 학습했다.
하지만 합성 데이터를 근본적으로 바꾼 전환점은 하나다.
2014년 6월 10일, **이안 굿펠로우(Ian Goodfellow)**가 "Generative Adversarial Networks"를 발표했다. 술집에서의 토론 후 하룻밤 만에 코딩한 프로토타입이 첫 시도에 작동했다는 전설적인 기원 이야기와 함께.
GAN의 핵심: **생성자(G)**와 판별자(D) 두 모델을 동시에 훈련. 생성자는 진짜 같은 데이터를 만들려 하고, 판별자는 진짜와 가짜를 구별하려 한다. 이 적대적 경쟁이 점점 더 사실적인 데이터를 만들어낸다.
GAN 이후 수백 편의 관련 논문이 발표되었고, 고해상도 이미지의 사실적 생성이 처음으로 가능해졌다. 이것이 2020년대 합성 데이터 산업의 기반을 놓았다.
Waymo: 공도에서 약 2억 마일의 완전 자율주행, 시뮬레이션에서 200억 마일 이상 학습. 2026년 2월에는 Waymo World Model을 공개 — 현실에서 절대 발생하지 않을 시나리오까지 카메라와 라이다 데이터를 생성하는 프론티어 생성 모델.
Tesla의 Data Engine: 모든 Tesla 차량에서 두 FSD 시스템이 동시 작동 — 하나는 운전, 하나는 "쉐도우 모드"로 부정확함을 기록. 불일치가 발생하면 플릿 전체에서 더 많은 사례를 수집하고, 인간이 레이블링하여 학습에 반영. FSD v12는 30만 줄의 제어 코드를 2,0003,000줄의 신경망 관리 코드로 축소했다.
Tesla의 플라이휠: 더 많은 차 → 더 많은 데이터 → 더 나은 FSD → 더 많은 차.
2023년 6월, Microsoft의 Suriya Gunasekar 등이 "Textbooks Are All You Need"를 발표했다. 13억 파라미터의 작은 모델 phi-1이 A100 8대로 4일 만에 학습되었다.
핵심: 학습 데이터의 대부분이 GPT-3.5로 합성 생성된 교과서와 연습 문제 (10억 토큰)였다.
결과:
13억 파라미터 모델이 수십~수백배 큰 모델과 경쟁할 수 있었다. 핵심 교훈: 고품질 합성 데이터 > 대량의 미필터링 데이터.
Stanford가 2023년 3월, LLaMA 7B를 text-davinci-003이 생성한 52K 명령어-수행 데모로 파인튜닝했다. Self-Instruct 방식을 간소화한 파이프라인. 데이터 생성 총비용: $500 미만.
결과: 단일 턴 명령어 수행에서 text-davinci-003과 질적으로 유사한 성능. 이 연구는 "소규모 팀도 합성 데이터로 경쟁력 있는 모델을 만들 수 있다"는 가능성을 열었다.
HuggingFace가 만든 3,000만+ 파일, 250억 토큰의 합성 데이터셋. Mixtral-8x7B-Instruct가 H100 10,000시간 이상에 걸쳐 생성. 합성 교과서, 블로그 포스트, 스토리, WikiHow 문서를 포함. 중복 콘텐츠율 1% 미만.
2024년 6월, NVIDIA의 Nemotron-4 340B는 정렬 데이터의 98% 이상이 합성 생성이었다. Nemotron-4-340B-Instruct가 생성하고, Nemotron-4-340B-Reward가 5가지 속성(유용성, 정확성, 일관성, 복잡성, 장황함)으로 순위를 매기고 필터링하는 파이프라인을 오픈소스로 공개했다.
합성 데이터의 매력적인 가능성 이면에는 치명적 위험이 있다. **Shumailov et al.**이 2024년 Nature에 발표한 "The Curse of Recursion"이 그것을 증명했다.
핵심 발견: 모델 생성 콘텐츠를 무분별하게 사용하면 되돌릴 수 없는 결함이 발생한다. 원래 분포의 꼬리(tail)가 사라진다.
**Alemohammad et al.**이 ICLR 2024에서 발표한 "Self-Consuming Generative Models Go MAD"는 이 현상에 이름을 붙였다 — 광우병에 비유한 Model Autophagy Disorder (MAD).
완전 자가 소화 (자기 출력만으로 학습) 시 4~5세대 만에 출력이 평균값으로 수렴. 얼굴 데이터셋의 경우 격자 모양의 인공물이 나타나거나, 모든 얼굴이 같은 사람처럼 보이기 시작한다.
통제하지 않으면 "인터넷 전체의 데이터 품질과 다양성을 오염시킬 수 있는" 종말적 시나리오.
Gartner의 경고: "2027년까지 합성 데이터 품질 관리 실패로 D&A 전략의 80%가 거버넌스 실패를 겪을 수 있다."
모델 붕괴의 해법은 결국 데이터 플라이휠 — 합성 데이터와 인간 판단을 체계적으로 순환시키는 구조다.
**짐 콜린스(Jim Collins)**가 2001년 Good to Great에서 제시한 플라이휠 개념: 무거운 바퀴를 돌리는 데 처음에는 엄청난 힘이 필요하지만, 일단 속도가 붙으면 관성이 스스로를 유지한다.
데이터 플라이휠은 이 원리를 AI에 적용한 것이다:
Amazon의 정석적 사례: 낮은 가격 → 더 많은 고객 → 더 많은 판매자 → 더 넓은 선택 → 더 나은 경험 → 더 많은 고객. 추천 엔진이 총 매출의 **35%**를 견인하며, 3억+ 고객이 매 초 행동 데이터를 생성한다.
Cen (Mia) Zhao 등 Airbnb 연구자들의 Agent-in-the-Loop(AITL) 프레임워크는 2026년 현재 가장 상세하게 문서화된 프로덕션 데이터 플라이휠이다.
라이브 고객 인터랙션 중 4가지 어노테이션을 수집:
40명 에이전트, 5,000+ 케이스, 에이전트당 일 ~11건 어노테이션:
가장 인상적 성과: 재학습 주기가 3개월 → 수 주로 단축. 피드백이 일상 워크플로우에 통합되어 한계 비용이 거의 제로. 2026년 2월 기준 AI가 미국/캐나다 고객 지원의 약 33%를 처리한다.
NVIDIA의 자기 개선 루프: NeMo + NIM 마이크로서비스로 프로덕션 데이터에서 소형 모델을 증류·파인튜닝·평가.
실전 테스트: 내부 HR 챗봇의 도구 호출 유스케이스에서 파인튜닝된 llama-3.2-1b-instruct가 70B 모델 대비 ~98% 정확도 달성. 추론 비용 98.6% 절감 (GPU 2대 → 1대).
이것이 지식 증류와 데이터 플라이휠의 결합이다: 큰 모델이 합성 학습 데이터를 생성 → 작은 모델이 학습 → 프로덕션에서 작은 모델 사용 → 실패 사례가 새 학습 데이터가 됨 → 순환.
DoorDash는 LLM 챗봇 시뮬레이터를 구축하여 과거 상담 내역에서 멀티턴 합성 대화를 생성. LLM-as-judge 프레임워크로 결과 평가. 엔지니어가 실패 식별 → 평가 체크 추가 → 타겟 시뮬레이션 생성 → 개선 검증.
이 프레임워크를 통한 컨텍스트 엔지니어링 개선으로 환각률 ~90% 감소 — 배포 전에.
DeepSeek R1 (Nature, 2025): R1-Zero 변형은 SFT 없이 순수 강화학습으로 학습. RL 수렴 근처에서 거부 샘플링(rejection sampling) — 모델이 스스로의 출력 중 최고를 선별하여 자기 학습 데이터를 생성. 자기 성찰, 검증, 동적 전략 적응이 창발적으로 등장.
OpenAI o1/o3: 내부 추론 모델이 생성한 합성 Chain-of-Thought 예시로 학습. AI "판사" 모델이 품질을 평가. 학습 시 컴퓨팅(더 많은 RL)과 추론 시 컴퓨팅(더 깊은 생각) 모두에서 성능이 향상.
LANCE는 LLM이 자율적으로 데이터를 생성·정제·검토·어노테이션하는 프레임워크. Qwen2-7B에서 평균 +3.64점 향상, GSM8K 수학에서 +19.18점.
기업들이 보고하는 데이터 수집/레이블링 비용 80~99% 절감, 시장 출시 시간 50% 단축, 최고 성과 기업 300~500% ROI.
의료: 합성 환자 데이터로 데이터 활용 계약, 프로토콜 제출, 윤리 승인 없이 ML 모델 개발 가능.
금융: 합성 거래 데이터가 프로덕션 데이터 대비 96~99% 유용성 동등성 달성. AML 테스트에서 사기 탐지 15~20% 향상, KYC 비용 $1~2M 절감.
EU AI Act 제50조: AI 시스템이 합성 콘텐츠를 생성하면 기계 판독 가능 형식으로 인공 생성임을 표시해야 함. 2026년 8월 시행.
2026년의 합의: "종착지는 '전부 합성, 인간 없음'이 아니라, 합성 데이터가 ML 스택의 표준 구성 요소가 되어 인간 판단을 대체하는 것이 아닌 확장하는 것이다."
경쟁 우위는 "누가 가장 똑똑한 플라이휠을 돌리는가"에 있다: 큐레이션된 인간 코퍼스 + 규율 있는 합성 생성 + HITL 선별 + 실제 데이터에 대한 끈질긴 검증.
Anthropic의 Constitutional AI(2022)는 합성 데이터와 HITL의 접점을 보여주는 원형이다.
1단계: 모델이 헌법 원칙에 따라 스스로를 비판·수정 (합성 개선 데이터 생성) 2단계: AI가 두 출력 중 나은 것을 평가 (합성 선호 데이터 생성)
결과: 파레토 개선 — 더 유용하면서 더 무해한 모델. 유해성에 대해 인간 레이블 제로. 하지만 인간이 사라진 것이 아니다 — 인간은 원칙을 설계했다. 전편에서 다뤘듯, 개별 판단에서 원칙 설계로의 추상화다.
RLAIF(AI 피드백에서 학습)가 RLHF(인간 피드백에서 학습)와 동등한 성능을 달성하는 영역이 늘고 있다. Google의 RLAIF 논문: 요약, 유용한 대화, 무해한 대화에서 RLAIF가 RLHF 성능에 매칭. 무해한 대화에서 RLAIF는 88% 무해율로 RLHF와 SFT 모두를 능가.
그러나 중요한 주의점: AI 교사가 일부 데이터셋에서 원래 인간 선호의 약 50%를 뒤집는다는 연구도 있다. 노이즈 강건 방법이 필요하다.
한국은 합성 데이터에서 독특한 위치에 있다.
네이버: 아시아 최대 단일 기업 데이터센터(GAK 세종, 294,000㎡, 65엑사바이트 저장) 구축. HyperClovaX는 GPT-4 대비 한국어 데이터 6,500배 규모로 학습.
한국 정부는 네이버 클라우드, 업스테이지, SK텔레콤, NCSOFT, LG AI Research의 **5개 "정예 팀"**을 주권 AI 모델 개발을 위해 지원하고 있다. NVIDIA는 한국 정부·산업체와 $650억 AI 인프라 생태계 파트너십을 체결했다.
한국어 데이터는 영어에 비해 절대량이 적다. 이것은 데이터 벽에 더 빨리 도달한다는 의미이며, 동시에 합성 데이터의 가치가 더 크다는 의미이기도 하다. 한국어 고품질 합성 데이터 생성 능력이 한국 AI 경쟁력의 핵심 변수가 된다.
이 글의 핵심 서사를 압축하면:
코어닷투데이의 모든 AI 제품에서 이 플라이휠은 작동하고 있다. AI 아르스 키오스크의 인터랙션 데이터가 경험을 개선하고, 의정지원 AI의 정책 전문가 피드백이 모델을 정교화하며, Sharp-PINN의 검사 결과가 물리 시뮬레이션을 보정한다. 합성 데이터는 이 순환을 가속하는 연료이고, 인간의 판단은 순환의 방향을 잡는 조타수다.
위너가 사이버네틱스를 만들 때 말했듯 — 시스템이 아무리 자동화되어도, 방향을 결정하는 것은 조타수다. 데이터 플라이휠에서 그 조타수는 여전히 인간이다.