
한국 AI 5인방 완전 해부 — HyperCLOVA X Think, K-EXAONE, Kanana, Gauss, A.X K1
LG의 K-EXAONE은 AIME 2025에서 92.8%로 GPT를 넘었고, SKT의 A.X K1은 519B 파라미터로 국내 최대 규모를 자랑한다. 네이버, 카카오, 삼성까지 — 2026년 한국 AI 5인방의 기술, 벤치마크, 전략을 낱낱이 해부한다.

LG의 K-EXAONE은 AIME 2025에서 92.8%로 GPT를 넘었고, SKT의 A.X K1은 519B 파라미터로 국내 최대 규모를 자랑한다. 네이버, 카카오, 삼성까지 — 2026년 한국 AI 5인방의 기술, 벤치마크, 전략을 낱낱이 해부한다.

2026년 3월, 한국 AI 업계에 전례 없는 일이 벌어지고 있다.
LG AI Research의 K-EXAONE 236B가 AIME 2025 수학 벤치마크에서 92.8%를 기록하며 GPT-o3-mini(92.5%)를 넘었다. SK텔레콤의 A.X K1은 519B 파라미터로 국내 최대 규모 모델을 선보이며 수학과 코딩에서 DeepSeek-V3.1을 앞질렀다. 업스테이지의 Solar Pro 2는 Artificial Analysis Intelligence Index에서 58점으로 GPT-4.1(53점)을 5점 차로 제쳤다 — 한국 모델 중 처음으로 "프론티어 모델" 인정을 받았다.
불과 2년 전만 해도 "한국어를 잘하는 AI"는 있었지만, "세계적으로 경쟁력 있는 한국산 AI"는 상상하기 어려웠다. 지금은 다르다. 대한민국 정부의 주권 AI 프로젝트, 글로벌 벤치마크에서의 약진, 그리고 오픈소스 생태계 참여까지 — 한국 AI가 양적으로나 질적으로나 전환점을 맞이하고 있다.
이 글에서는 한국 AI 5인방 — 네이버 HyperCLOVA X Think, LG K-EXAONE, 카카오 Kanana, 삼성 Gauss, SKT A.X K1 — 의 기술, 벤치마크, 전략, 그리고 한계를 낱낱이 해부한다.
한국의 대형 AI 모델 경쟁은 2023년 본격적으로 시작되었다. 그 해 주요 사건:
이 시점에서 한국 모델들은 한국어 성능에서는 나름 경쟁력이 있었지만, 영어 벤치마크에서는 GPT-4, Claude 3에 한참 뒤처졌다. "한국어 잘하는 로컬 모델" 이상의 위치를 잡지 못한 상태였다.
전환점은 두 가지였다.
첫째, 오픈소스 물결. Meta의 Llama, Mistral, DeepSeek 등의 오픈소스 모델이 폭발적으로 성장하면서, 한국 기업들도 오픈소스 전략을 채택하기 시작했다. LG는 EXAONE 3.0을 오픈소스로 전환했고, 카카오는 Kanana Nano를 Apache 2.0으로 공개했다.
둘째, 정부의 주권 AI 프로젝트. 2025년 하반기, 대한민국 정부가 대규모 예산을 투입한 국가 AI 기반모델 사업을 발주했다. 목표: 글로벌 경쟁력을 갖춘 "한국산" AI 기반모델 개발. 5개 컨소시엄이 경쟁에 뛰어들었다.
놀라운 결과가 나왔다. LG AI Research가 압도적 1위. 13개 벤치마크 중 10개에서 최고점을 기록했다. 평균 72.03점으로 Qwen3(69.37), GPT-OSS(69.79)를 모두 넘었다.
충격적이었던 것은 네이버 클라우드의 탈락이다. 기술력이 아니라 "독립성/자체 개발" 기준을 충족하지 못한 것이 이유였다. 사전학습 구성 요소의 독자성 검증에서 문제가 제기된 것으로 알려졌다.
이 사건은 한국 AI 업계에 두 가지 메시지를 던졌다: (1) 기술력만으로는 부족하고 자체 개발 역량이 중요하다. (2) 한국 AI가 이제 글로벌 벤치마크에서 진짜 경쟁력을 가지기 시작했다.
| 항목 | SEED Think 32B |
|---|---|
| 파라미터 | ~32B (Dense) |
| 학습 데이터 | 6조 토큰 (한국어+영어) |
| 컨텍스트 | 128K 토큰 |
| 어텐션 | GQA (8 KV 그룹) |
| 입력 | 텍스트, 이미지, 비디오 |
| 비전 인코더 | Qwen2.5-VL 기반, 1920x1080 |
| 오픈소스 | HyperCLOVA X SEED License (상업 이용 가능) |
SEED Think 32B는 4단계 커리큘럼으로 학습되었다:
주목할 점: 학습이 진행될수록 수학과 코드의 비율이 급격히 증가한다. Stage 1의 수학 8.6%가 Stage 4에서 25.3%로, 코드는 12%에서 25.2%로. 추론 능력을 후반부에 집중적으로 강화하는 전략이다.
2026 수능 수학 (Consensus@64): 확률과 통계 92점, 미적분 89점, 기하 92점 — 상위 4% 수준
강점: 한국어 문화적 이해도가 높음 (KoBALT-700에서 Qwen3-32B, QwQ-32B 모두 능가). 멀티모달(텍스트+이미지+비디오) 통합. "동급 모델 대비 현저히 적은 학습 컴퓨트"로 달성.
한계: 주권 AI 프로젝트 1차에서 탈락. 비공개 THINK 모델과 오픈소스 SEED 사이의 성능 격차가 있을 것으로 추정. 글로벌 수학/코딩 벤치마크에서는 K-EXAONE이나 A.X K1에 뒤처짐.
| 항목 | K-EXAONE 236B |
|---|---|
| 총 파라미터 | 236B |
| 활성 파라미터 | 23B (MoE) |
| 전문가 수 | 128개 총, 8개 활성, 1개 공유 |
| 컨텍스트 | 256K 토큰 |
| 어텐션 | 하이브리드 3:1 (슬라이딩 윈도우 128 + 글로벌) |
| 보캐블러리 | 153,600 (SuperBPE) |
| 학습 데이터 | 14조+ 토큰 |
| 언어 | 한/영/스페인/독일/일본/베트남어 |
1. SuperBPE 토크나이저: 토큰 효율 30% 향상. 같은 컨텍스트 길이에서 1.3배 더 긴 문서를 처리할 수 있다.
2. Multi-Token Prediction (MTP): 한 번에 여러 토큰을 예측하여 추론 처리량을 ~1.5배 향상. 자기 투기적 디코딩(self-speculative decoding)으로 활용.
3. 하이브리드 어텐션: 3개의 슬라이딩 윈도우 레이어 + 1개의 글로벌 레이어를 반복. EXAONE 4.0 대비 메모리와 연산을 70% 절감.
한국어 벤치마크에서도 강력:
| 벤치마크 | K-EXAONE | DeepSeek-V3.2 | Qwen3-Thinking |
|---|---|---|---|
| KoBALT | 61.8 | 62.7 | 56.1 |
| CLIcK | 83.9 | 86.3 | 81.3 |
| HRM8K | 90.9 | 90.6 | 92.0 |
| Ko-LongBench | 86.8 | 87.9 | 83.2 |
K-EXAONE은 글로벌 모델들과 거의 대등한 수준에 도달했다. DeepSeek-V3.2에 소폭 뒤지는 항목이 있지만, 그 격차가 1~3%p에 불과하다.
리테일 에이전트 벤치마크에서 K-EXAONE이 DeepSeek와 GPT를 모두 앞선다. 기업 서비스(고객 응대, 주문 처리 등)에 직접 연결되는 실용적 지표다.
Wild-Jailbreak 89.9%, KGC-Safety 96.1% — 안전성 벤치마크에서도 높은 점수. 기업용 배포에 필수적인 요소다.
카카오의 전략은 명확하다: 적은 활성 파라미터로 최대 효과. Kanana-2의 핵심은 30B 총 파라미터 중 3B만 활성화하는 MoE 아키텍처다.
| 항목 | Kanana-2 30B-A3B |
|---|---|
| 총 파라미터 | 30B |
| 활성 파라미터 | 3B |
| 전문가 수 | 128개, 6개 선택, 2개 공유 |
| 어텐션 | MLA (Multi-head Latent Attention) |
| 컨텍스트 | 32K (YaRN으로 128K 확장 가능) |
| 언어 | 한/영/일/중/태/베트남어 |
| 변형 | Base, Instruct, Thinking |
카카오가 공개한 놀라운 수치: 유사 규모 모델 대비 학습 비용 50% 이상 절감.
어떻게?
카카오의 차별화 포인트는 Kanana-o — 텍스트, 음성, 이미지를 동시에 처리하는 통합 멀티모달 모델이다.
특히 한국어 음성 인식에서 두드러진다:
| 벤치마크 | Kanana-2 30B-A3B Thinking | Qwen3-30B-A3B Thinking |
|---|---|---|
| MMLU-Pro | 75.3 | 80.8 |
| AIME 2025 | 72.7 | 82.3 |
| LiveCodeBench | 60.8 | — |
| IFEval | 82.2 | — |
| BFCL-v3 (도구 호출) | 75.6 | — |
글로벌 최정상 모델과의 격차는 있지만, 같은 활성 파라미터(3B) 대비 매우 효율적이다. 특히 도구 호출(BFCL-v3 75.6%)은 에이전트 활용에서 강점이다.
삼성의 전략은 다른 4사와 근본적으로 다르다. 오픈소스 없음. 벤치마크 비공개. 파라미터 수 비공개. 대신 세계에서 가장 많이 팔리는 스마트폰에 직접 탑재한다.
다른 모든 한국 AI 모델을 합쳐도 삼성의 배포 규모에는 미치지 못한다:
삼성은 Agentic Builder — 노코드 드래그앤드롭 AI 에이전트 생성 도구를 개발했다. Galaxy S26부터 시스템 전반에 걸친 에이전틱 AI를 구현할 계획이며, Gauss + Gemini + Perplexity를 통합하는 하이브리드 전략을 추구한다.
| 항목 | A.X K1 |
|---|---|
| 총 파라미터 | 519B (5,190억) |
| 활성 파라미터 | 33B |
| 아키텍처 | MoE |
| 컨텍스트 | 128K 토큰 |
| 학습 데이터 | ~10조 토큰 |
| GPU | 1,000+ 장, ~4개월 연속 학습 |
| 언어 | 한국어 (주), 영어 |
519B는 한국 모델 중 최대 규모다. K-EXAONE(236B)의 2배 이상이다.
A.X K1의 특이점은 8개 기관의 컨소시엄으로 개발되었다는 것이다:
반도체(리벨리온) + 데이터(셀렉트스타) + 서비스(Liner) + 학계(서울대, KAIST) + 도메인 전문성(크래프톤, 42dot)을 아우르는 풀스택 접근이다.
| 벤치마크 | A.X K1 | DeepSeek-V3.1 | 대비 |
|---|---|---|---|
| AIME 2025 | 89.8 | 88.4 | 102% |
| LiveCodeBench (영어) | 75.8 | 69.5 | 109% |
| LiveCodeBench (한국어) | 73.1 | 66.2 | 110% |
수학과 코딩 모두에서 DeepSeek-V3.1을 앞선다. 특히 한국어 코딩 벤치마크에서 10% 우위는 한국 개발자에게 직접적 가치가 있다.
A.X K1의 독특한 전략: 519B 모델을 직접 서비스하기보다 "티처 모델"로 활용한다. 70B 이하의 작은 모델에게 지식을 전달하는 역할이다. 거대 모델의 지식을 서비스에 적합한 크기의 모델로 증류하는 접근.
| 네이버 | LG | 카카오 | 삼성 | SKT | |
|---|---|---|---|---|---|
| 최대 모델 | THINK (비공개) | K-EXAONE 236B | Kanana-2 30B-A3B | Gauss Supreme | A.X K1 519B |
| 오픈소스 | SEED 시리즈 | 전 라인업 | Kanana-2 등 | 없음 | 계획 중 |
| 주권 AI | 탈락 | 1위 통과 | 미참여 | 미참여 | 통과 |
| 핵심 전략 | 멀티모달+추론 | 프론티어+기업 | 효율+서비스 통합 | 온디바이스+배포 | 규모+풀스택 |
| 차별화 | 한국 문화 이해 | 벤치마크 1위 | 비용 효율 50%↓ | Galaxy 생태계 | 519B 최대 규모 |
| 학습 데이터 | 6조 토큰 | 14조+ 토큰 | 비공개 | 비공개 | ~10조 토큰 |
2026년 한국 AI 5인방의 모습을 한 문장으로 요약하면: "한국어 잘하는 로컬 모델"에서 "글로벌 벤치마크에서 경쟁하는 프론티어 모델"로 전환 중이다.
K-EXAONE이 AIME에서 GPT를 넘고, A.X K1이 코딩에서 DeepSeek를 앞지르고, Solar Pro 2가 Intelligence Index에서 GPT-4.1을 제치는 것은 2년 전에는 상상하기 어려운 일이었다.
물론 한계도 명확하다. 아직 SWE-Bench(소프트웨어 엔지니어링)에서는 글로벌 모델에 크게 뒤처지고, Humanity's Last Exam 같은 최고 난도 벤치마크에서의 격차는 여전하다. 삼성은 벤치마크 자체를 공개하지 않아 실력을 객관적으로 비교할 수 없다.
하지만 방향은 분명하다. 2026년 하반기 주권 AI 프로젝트 최종 평가, A.X K2의 1조 파라미터 도전, 카카오의 카카오톡 에이전트 통합, 삼성의 Galaxy S26 에이전틱 AI — 한국 AI의 다음 장이 이미 쓰이고 있다.
이 경쟁의 최대 수혜자는 한국어 사용자다. 글로벌 모델들이 한국어를 "추가 언어" 정도로 취급할 때, 한국 모델들은 한국어를 모국어로 이해한다. 제주 사투리를 알아듣고, 수능 수학을 상위 4%로 풀고, 한국 문화적 맥락을 자연스럽게 이해하는 AI — 이것이 한국 AI 5인방의 진짜 가치다.
참고 자료: