한국 AIHyperCLOVA XEXAONEK-EXAONEKananaSamsung GaussA.X K1주권 AI오픈소스 LLM

한국 AI 5인방 완전 해부 — HyperCLOVA X Think, K-EXAONE, Kanana, Gauss, A.X K1

LG의 K-EXAONE은 AIME 2025에서 92.8%로 GPT를 넘었고, SKT의 A.X K1은 519B 파라미터로 국내 최대 규모를 자랑한다. 네이버, 카카오, 삼성까지 — 2026년 한국 AI 5인방의 기술, 벤치마크, 전략을 낱낱이 해부한다.

코어닷투데이2026-03-2540분

들어가며: 한국 AI, 세계 무대에 서다

한국 AI 5인방

2026년 3월, 한국 AI 업계에 전례 없는 일이 벌어지고 있다.

LG AI Research의 K-EXAONE 236B가 AIME 2025 수학 벤치마크에서 92.8%를 기록하며 GPT-o3-mini(92.5%)를 넘었다. SK텔레콤의 A.X K1은 519B 파라미터로 국내 최대 규모 모델을 선보이며 수학과 코딩에서 DeepSeek-V3.1을 앞질렀다. 업스테이지의 Solar Pro 2는 Artificial Analysis Intelligence Index에서 58점으로 GPT-4.1(53점)을 5점 차로 제쳤다 — 한국 모델 중 처음으로 "프론티어 모델" 인정을 받았다.

불과 2년 전만 해도 "한국어를 잘하는 AI"는 있었지만, "세계적으로 경쟁력 있는 한국산 AI"는 상상하기 어려웠다. 지금은 다르다. 대한민국 정부의 주권 AI 프로젝트, 글로벌 벤치마크에서의 약진, 그리고 오픈소스 생태계 참여까지 — 한국 AI가 양적으로나 질적으로나 전환점을 맞이하고 있다.

이 글에서는 한국 AI 5인방 — 네이버 HyperCLOVA X Think, LG K-EXAONE, 카카오 Kanana, 삼성 Gauss, SKT A.X K1 — 의 기술, 벤치마크, 전략, 그리고 한계를 낱낱이 해부한다.

제1장: 한국 AI의 여정 — 어떻게 여기까지 왔는가

2023년: 출발선

한국의 대형 AI 모델 경쟁은 2023년 본격적으로 시작되었다. 그 해 주요 사건:

네이버: HyperCLOVA X 발표. 한국어 특화 LLM의 시작.
LG: EXAONE 1.0 공개. "전문가 AI" 콘셉트.
삼성: Samsung Gauss 1 공개 (SAIF 2023). Galaxy S24에 탑재 예고.
카카오: KoGPT 이후 Kanana 라인업 준비.
SKT: AI 비서 'A.'에 LLM 통합 시작.

이 시점에서 한국 모델들은 한국어 성능에서는 나름 경쟁력이 있었지만, 영어 벤치마크에서는 GPT-4, Claude 3에 한참 뒤처졌다. "한국어 잘하는 로컬 모델" 이상의 위치를 잡지 못한 상태였다.

2024~2025: 격차 축소

전환점은 두 가지였다.

첫째, 오픈소스 물결. Meta의 Llama, Mistral, DeepSeek 등의 오픈소스 모델이 폭발적으로 성장하면서, 한국 기업들도 오픈소스 전략을 채택하기 시작했다. LG는 EXAONE 3.0을 오픈소스로 전환했고, 카카오는 Kanana Nano를 Apache 2.0으로 공개했다.

둘째, 정부의 주권 AI 프로젝트. 2025년 하반기, 대한민국 정부가 대규모 예산을 투입한 국가 AI 기반모델 사업을 발주했다. 목표: 글로벌 경쟁력을 갖춘 "한국산" AI 기반모델 개발. 5개 컨소시엄이 경쟁에 뛰어들었다.

2026년 1월: 주권 AI 1차 평가 결과

72.0 LG AI Research 1위 통과 (13개 중 10개 1등)

통과 SK텔레콤 519B 모델로 2위권

통과 업스테이지 프론티어 모델 인정

탈락 네이버 클라우드 독립성 기준 미충족

놀라운 결과가 나왔다. LG AI Research가 압도적 1위. 13개 벤치마크 중 10개에서 최고점을 기록했다. 평균 72.03점으로 Qwen3(69.37), GPT-OSS(69.79)를 모두 넘었다.

충격적이었던 것은 네이버 클라우드의 탈락이다. 기술력이 아니라 "독립성/자체 개발" 기준을 충족하지 못한 것이 이유였다. 사전학습 구성 요소의 독자성 검증에서 문제가 제기된 것으로 알려졌다.

이 사건은 한국 AI 업계에 두 가지 메시지를 던졌다: (1) 기술력만으로는 부족하고 자체 개발 역량이 중요하다. (2) 한국 AI가 이제 글로벌 벤치마크에서 진짜 경쟁력을 가지기 시작했다.

제2장: 네이버 HyperCLOVA X Think — 추론의 개척자

모델 개요

HyperCLOVA X 모델 패밀리

THINK (비공개) 프론티어 추론 모델 NAVER Cloud API 전용

SEED Think 32B 오픈소스 128K 컨텍스트, 멀티모달

SEED Think 14B 오픈소스 (경량) 프루닝+증류

SEED Omni 8B 오픈소스 텍스트+이미지+오디오

항목	SEED Think 32B
파라미터	~32B (Dense)
학습 데이터	6조 토큰 (한국어+영어)
컨텍스트	128K 토큰
어텐션	GQA (8 KV 그룹)
입력	텍스트, 이미지, 비디오
비전 인코더	Qwen2.5-VL 기반, 1920x1080
오픈소스	HyperCLOVA X SEED License (상업 이용 가능)

핵심 기술: 6조 토큰 커리큘럼 학습

SEED Think 32B는 4단계 커리큘럼으로 학습되었다:

HyperCLOVA X SEED Think 32B 학습 파이프라인

Stage 1 6조 토큰, 4K 컨텍스트 — 기초 지식 학습

Stage 2 8K 컨텍스트로 확장 — 수학 비율 8.6% → 15%

Stage 3 32K → 128K 컨텍스트 — RoPE base 500K → 5M 확장

Stage 4 SFT + RLVR(검증 가능한 보상 기반 강화학습) — 수학 25.3%, 코드 25.2%

주목할 점: 학습이 진행될수록 수학과 코드의 비율이 급격히 증가한다. Stage 1의 수학 8.6%가 Stage 4에서 25.3%로, 코드는 12%에서 25.2%로. 추론 능력을 후반부에 집중적으로 강화하는 전략이다.

벤치마크 성능

2026 수능 수학 (Consensus@64): 확률과 통계 92점, 미적분 89점, 기하 92점 — 상위 4% 수준

한국어 벤치마크 — SEED Think 32B

KMMLU

71.3

CLIcK

75.2

HAERAE 1.0

87.4

K-MMBench (비전)

88.1

K-DTCBench (비전)

93.3

강점과 한계

강점: 한국어 문화적 이해도가 높음 (KoBALT-700에서 Qwen3-32B, QwQ-32B 모두 능가). 멀티모달(텍스트+이미지+비디오) 통합. "동급 모델 대비 현저히 적은 학습 컴퓨트"로 달성.

한계: 주권 AI 프로젝트 1차에서 탈락. 비공개 THINK 모델과 오픈소스 SEED 사이의 성능 격차가 있을 것으로 추정. 글로벌 수학/코딩 벤치마크에서는 K-EXAONE이나 A.X K1에 뒤처짐.

제3장: LG K-EXAONE — 주권 AI의 선두주자

모델 계보

2024 EXAONE 3.0 오픈소스 전환의 시작

2025.03 EXAONE Deep 추론 특화 파인튜닝 (32B/7.8B/2.4B)

2025.07 EXAONE 4.0 한국 최초 하이브리드 오픈소스 AI (32B/1.2B)

    2026.01
    K-EXAONE 236B
    프론티어 MoE 모델. 주권 AI 1위. 글로벌 11위.
  

K-EXAONE 236B 아키텍처

항목	K-EXAONE 236B
총 파라미터	236B
활성 파라미터	23B (MoE)
전문가 수	128개 총, 8개 활성, 1개 공유
컨텍스트	256K 토큰
어텐션	하이브리드 3:1 (슬라이딩 윈도우 128 + 글로벌)
보캐블러리	153,600 (SuperBPE)
학습 데이터	14조+ 토큰
언어	한/영/스페인/독일/일본/베트남어

핵심 기술 혁신

1. SuperBPE 토크나이저: 토큰 효율 30% 향상. 같은 컨텍스트 길이에서 1.3배 더 긴 문서를 처리할 수 있다.

2. Multi-Token Prediction (MTP): 한 번에 여러 토큰을 예측하여 추론 처리량을 ~1.5배 향상. 자기 투기적 디코딩(self-speculative decoding)으로 활용.

3. 하이브리드 어텐션: 3개의 슬라이딩 윈도우 레이어 + 1개의 글로벌 레이어를 반복. EXAONE 4.0 대비 메모리와 연산을 70% 절감.

벤치마크: 글로벌 수준

AIME 2025 수학 벤치마크 — K-EXAONE vs 글로벌

DeepSeek-V3.2

93.1

K-EXAONE 236B

92.8 한국 1위

GPT-OSS

92.5

Qwen3-Thinking

92.3

EXAONE 4.0

85.3

한국어 벤치마크에서도 강력:

벤치마크	K-EXAONE	DeepSeek-V3.2	Qwen3-Thinking
KoBALT	61.8	62.7	56.1
CLIcK	83.9	86.3	81.3
HRM8K	90.9	90.6	92.0
Ko-LongBench	86.8	87.9	83.2

K-EXAONE은 글로벌 모델들과 거의 대등한 수준에 도달했다. DeepSeek-V3.2에 소폭 뒤지는 항목이 있지만, 그 격차가 1~3%p에 불과하다.

에이전트 성능: 실무 적용의 핵심

Tau2 에이전트 벤치마크 — 리테일 도메인

K-EXAONE

78.6 최고

DeepSeek-V3.2

77.9

Qwen3-Thinking

71.9

GPT-OSS

69.1

리테일 에이전트 벤치마크에서 K-EXAONE이 DeepSeek와 GPT를 모두 앞선다. 기업 서비스(고객 응대, 주문 처리 등)에 직접 연결되는 실용적 지표다.

안전성

Wild-Jailbreak 89.9%, KGC-Safety 96.1% — 안전성 벤치마크에서도 높은 점수. 기업용 배포에 필수적인 요소다.

제4장: 카카오 Kanana — 효율의 달인

MoE로 "작지만 강하게"

카카오의 전략은 명확하다: 적은 활성 파라미터로 최대 효과. Kanana-2의 핵심은 30B 총 파라미터 중 3B만 활성화하는 MoE 아키텍처다.

항목	Kanana-2 30B-A3B
총 파라미터	30B
활성 파라미터	3B
전문가 수	128개, 6개 선택, 2개 공유
어텐션	MLA (Multi-head Latent Attention)
컨텍스트	32K (YaRN으로 128K 확장 가능)
언어	한/영/일/중/태/베트남어
변형	Base, Instruct, Thinking

비용 효율의 비밀

카카오가 공개한 놀라운 수치: 유사 규모 모델 대비 학습 비용 50% 이상 절감.

어떻게?

8비트 FP 학습: 표준 16/32비트 대신 Hopper GPU의 FP8을 활용
프루닝 + 증류: 큰 모델에서 작은 모델로 지식 전이
Mid-training 단계: 사전학습과 후학습 사이에 중간 단계를 두어 치명적 망각(catastrophic forgetting) 방지
Google Cloud TPU Trillium 인프라 활용

Kanana-o: 한국 최초 통합 멀티모달

카카오의 차별화 포인트는 Kanana-o — 텍스트, 음성, 이미지를 동시에 처리하는 통합 멀티모달 모델이다.

텍스트 입력

음성 입력

이미지 입력

↓

Kanana-o (통합 모델)

↓

텍스트 생성

음성 합성

이미지 이해

특히 한국어 음성 인식에서 두드러진다:

영어 음성: GPT-4o와 동등
한국어 음성: GPT-4o를 초과
한국 방언 인식: 제주도 사투리, 경상도 사투리를 인식하여 표준어로 변환 가능

벤치마크

벤치마크	Kanana-2 30B-A3B Thinking	Qwen3-30B-A3B Thinking
MMLU-Pro	75.3	80.8
AIME 2025	72.7	82.3
LiveCodeBench	60.8	—
IFEval	82.2	—
BFCL-v3 (도구 호출)	75.6	—

글로벌 최정상 모델과의 격차는 있지만, 같은 활성 파라미터(3B) 대비 매우 효율적이다. 특히 도구 호출(BFCL-v3 75.6%)은 에이전트 활용에서 강점이다.

2026년 로드맵

상반기: 카카오톡에 에이전트 기반 Kanana 통합, Kanana 검색 출시
멜론, 카카오맵, 선물하기, 예약 등 카카오 서비스 전면 통합
Kanana-2-155B-A17B: 수천억 규모 MoE 모델 학습 중
외부 파트너와의 오픈 에이전트 생태계 구축

제5장: 삼성 Gauss — 디바이스 AI의 왕

전략: "오픈소스 NO, 디바이스 YES"

삼성의 전략은 다른 4사와 근본적으로 다르다. 오픈소스 없음. 벤치마크 비공개. 파라미터 수 비공개. 대신 세계에서 가장 많이 팔리는 스마트폰에 직접 탑재한다.

Samsung Gauss 모델 패밀리 (Gauss 2)

Compact 온디바이스 인터넷 불필요, 3-4비트 양자화

Balanced 클라우드 효율/성능 균형, Gauss 1의 1/2 크기

Supreme MoE 기반 최고 성능

Gauss 2.3과 최신 변형 (2025~2026)

Gauss 2.3: Balanced/Supreme의 최신 이터레이션
Gauss 2.3 Think: 추론 강화 변형 (상세 비공개)
Gauss O Flash: 경량 빠른 응답 모델 (상세 비공개)
21개 이상 언어 지원 (한/영/일/중/스페인/프랑스/독일/이탈리아/베트남/태국/인도네시아/힌디/아랍/터키/폴란드/러시아/네덜란드/루마니아/스웨덴 등)
Gauss 1 대비 1.5~3배 빠른 처리 속도

삼성의 진짜 무기: 배포 규모

다른 모든 한국 AI 모델을 합쳐도 삼성의 배포 규모에는 미치지 못한다:

Galaxy S24/S25/S26 시리즈: 전 세계 수억 대
Galaxy Z Fold/Flip: 폴더블 시리즈
Galaxy Tab: 태블릿 시리즈
Galaxy Watch/Buds: 웨어러블까지 확장
내부 이미지 생성 사용량 153% 증가 (최신 버전 이후)

에이전틱 AI 전략 (2026)

삼성은 Agentic Builder — 노코드 드래그앤드롭 AI 에이전트 생성 도구를 개발했다. Galaxy S26부터 시스템 전반에 걸친 에이전틱 AI를 구현할 계획이며, Gauss + Gemini + Perplexity를 통합하는 하이브리드 전략을 추구한다.

제6장: SKT A.X K1 — 519B의 야심

한국 최대 규모

항목	A.X K1
총 파라미터	519B (5,190억)
활성 파라미터	33B
아키텍처	MoE
컨텍스트	128K 토큰
학습 데이터	~10조 토큰
GPU	1,000+ 장, ~4개월 연속 학습
언어	한국어 (주), 영어

519B는 한국 모델 중 최대 규모다. K-EXAONE(236B)의 2배 이상이다.

8개 기관 컨소시엄

A.X K1의 특이점은 8개 기관의 컨소시엄으로 개발되었다는 것이다:

A.X K1 컨소시엄

SK텔레콤 리드, 통신 인프라

크래프톤 게임 AI

42dot 자율주행 AI

리벨리온 AI 반도체

Liner 지식 검색 (1,100만+ 사용자)

셀렉트스타 데이터 레이블링

서울대 학술 연구

KAIST 학술 연구

반도체(리벨리온) + 데이터(셀렉트스타) + 서비스(Liner) + 학계(서울대, KAIST) + 도메인 전문성(크래프톤, 42dot)을 아우르는 풀스택 접근이다.

벤치마크: DeepSeek를 넘다

벤치마크	A.X K1	DeepSeek-V3.1	대비
AIME 2025	89.8	88.4	102%
LiveCodeBench (영어)	75.8	69.5	109%
LiveCodeBench (한국어)	73.1	66.2	110%

수학과 코딩 모두에서 DeepSeek-V3.1을 앞선다. 특히 한국어 코딩 벤치마크에서 10% 우위는 한국 개발자에게 직접적 가치가 있다.

"티처 모델" 전략

A.X K1의 독특한 전략: 519B 모델을 직접 서비스하기보다 "티처 모델"로 활용한다. 70B 이하의 작은 모델에게 지식을 전달하는 역할이다. 거대 모델의 지식을 서비스에 적합한 크기의 모델로 증류하는 접근.

미래 계획

A.X K2: 1조 파라미터 이상으로 확장
언어: 2개 → 5개 (한/영/중/일/스페인)
멀티모달: 이미지, 음성, 비디오 처리 (2026 하반기)
서비스: A.(에이닷) AI 비서 1,000만+ 구독자, Liner, 제조 솔루션, 게임 AI, 휴머노이드 로봇

제7장: 5인방 비교 — 누가 어디서 강한가

핵심 벤치마크 비교 (2026년 3월 기준)

K-EXAONE AIME

92.8

A.X K1 AIME

89.8

Kanana-2 AIME

72.7

SEED Think KMMLU

71.3

전략 비교

	네이버	LG	카카오	삼성	SKT
최대 모델	THINK (비공개)	K-EXAONE 236B	Kanana-2 30B-A3B	Gauss Supreme	A.X K1 519B
오픈소스	SEED 시리즈	전 라인업	Kanana-2 등	없음	계획 중
주권 AI	탈락	1위 통과	미참여	미참여	통과
핵심 전략	멀티모달+추론	프론티어+기업	효율+서비스 통합	온디바이스+배포	규모+풀스택
차별화	한국 문화 이해	벤치마크 1위	비용 효율 50%↓	Galaxy 생태계	519B 최대 규모
학습 데이터	6조 토큰	14조+ 토큰	비공개	비공개	~10조 토큰

실무 관점: 어떤 모델을 쓸 것인가?

기업 서비스/에이전트

K-EXAONE 236B: 에이전트 벤치마크 최강

A.X K1: 한국어 코딩에 강점

Kanana-2: 도구 호출 75.6% (비용 효율)

온디바이스/경량 배포

Samsung Gauss Compact: 양자화 온디바이스

Kanana Nano 2.1B: Apache 2.0 오픈소스

SEED Vision 3B: 경량 비전 모델

맺으며: 한국 AI의 다음 장

2026년 한국 AI 5인방의 모습을 한 문장으로 요약하면: "한국어 잘하는 로컬 모델"에서 "글로벌 벤치마크에서 경쟁하는 프론티어 모델"로 전환 중이다.

K-EXAONE이 AIME에서 GPT를 넘고, A.X K1이 코딩에서 DeepSeek를 앞지르고, Solar Pro 2가 Intelligence Index에서 GPT-4.1을 제치는 것은 2년 전에는 상상하기 어려운 일이었다.

물론 한계도 명확하다. 아직 SWE-Bench(소프트웨어 엔지니어링)에서는 글로벌 모델에 크게 뒤처지고, Humanity's Last Exam 같은 최고 난도 벤치마크에서의 격차는 여전하다. 삼성은 벤치마크 자체를 공개하지 않아 실력을 객관적으로 비교할 수 없다.

하지만 방향은 분명하다. 2026년 하반기 주권 AI 프로젝트 최종 평가, A.X K2의 1조 파라미터 도전, 카카오의 카카오톡 에이전트 통합, 삼성의 Galaxy S26 에이전틱 AI — 한국 AI의 다음 장이 이미 쓰이고 있다.

이 경쟁의 최대 수혜자는 한국어 사용자다. 글로벌 모델들이 한국어를 "추가 언어" 정도로 취급할 때, 한국 모델들은 한국어를 모국어로 이해한다. 제주 사투리를 알아듣고, 수능 수학을 상위 4%로 풀고, 한국 문화적 맥락을 자연스럽게 이해하는 AI — 이것이 한국 AI 5인방의 진짜 가치다.

참고 자료:

HyperCLOVA X THINK Technical Report — arXiv:2506.22403
EXAONE 4.0 Technical Report — arXiv:2507.11407
K-EXAONE Technical Report — arXiv:2601.01739
Kakao Kanana-2 — Hugging Face
SKT A.X K1 Technical Report — Hugging Face
주권 AI 프로젝트 1차 평가 결과 — AI타임스

인사이트2026.04.27