coredot.today
관리형 쿠버네티스 완전 가이드: EKS, GKE, AKS — 무엇을 선택할 것인가
블로그로 돌아가기
EKSGKEAKS쿠버네티스Kubernetes클라우드멀티클라우드

관리형 쿠버네티스 완전 가이드: EKS, GKE, AKS — 무엇을 선택할 것인가

쿠버네티스를 직접 운영하는 것은 '집을 짓는 것'이고, 관리형 서비스를 쓰는 것은 '아파트에 입주하는 것'이다. AWS EKS, Google GKE, Azure AKS가 왜 탄생했고, 어떤 차이가 있으며, 당신의 팀에 맞는 선택은 무엇인지를 실전 관점에서 풀어본다.

코어닷투데이2026-02-1031

들어가며: 쿠버네티스 운영이라는 무거운 짐

이전 글에서 쿠버네티스가 컨테이너 오케스트레이션의 사실상 표준이라고 설명했다. 하지만 한 가지 빠뜨린 것이 있다 — 쿠버네티스 자체를 운영하는 것이 얼마나 힘든지.

쿠버네티스를 직접 설치하고 운영한다고 상상해 보자:

  • etcd 클러스터 구축 및 백업 — 모든 상태를 저장하는 핵심 DB. 장애 시 클러스터 전체가 멈춤
  • API Server 고가용성 구성 — 다중 인스턴스, 로드밸런서, SSL 인증서
  • 컨트롤 플레인 업그레이드 — 3~4개월마다 나오는 새 버전에 맞춰 무중단 업그레이드
  • 네트워크 플러그인(CNI) 선택과 설정 — Calico? Cilium? Flannel?
  • 스토리지 플러그인(CSI) 설정
  • 인증/인가 — RBAC 설정, 인증서 관리, OIDC 연동
  • 모니터링 — Prometheus, Grafana, 알림 설정

이것을 Day 2 Operations이라 부른다. 설치(Day 1)보다 운영(Day 2)이 10배는 더 어렵다.

3~4개월 K8s 마이너 버전 릴리즈 주기 따라잡지 않으면 지원 종료
14개월 버전별 지원 기간 이후 보안 패치 없음
50+ 컨트롤 플레인 구성 요소 모두 직접 관리해야 함

CNCF의 2024년 조사에 따르면, 쿠버네티스 도입의 가장 큰 장애물은 복잡성(36%)숙련된 인력 부족(31%) 이다. 기술 자체보다 운영이 문제인 것이다.

"쿠버네티스의 기능은 쓰고 싶지만, 컨트롤 플레인 운영은 하고 싶지 않다."

이 요구에 대한 답이 관리형 쿠버네티스 서비스(Managed Kubernetes) 다.


1. 관리형 쿠버네티스는 왜 탄생했는가

"설치는 했는데 운영을 못하겠다"

2015~2017년, 쿠버네티스가 주목받기 시작하면서 많은 기업이 자체 클러스터를 구축했다. 결과는 대부분 같았다:

  1. 인프라팀이 수 주에 걸쳐 클러스터를 구축
  2. 몇 달간은 잘 작동
  3. K8s 버전 업그레이드 시점이 오면 공포 시작
  4. etcd 장애 → 복구에 며칠
  5. 팀이 K8s 운영에 매몰되어 본업(서비스 개발)을 못 함

Kelsey Hightower (Google의 K8s 에반젤리스트)는 2017년에 이렇게 말했다:

"쿠버네티스는 컨테이너 오케스트레이션 문제를 해결했다. 하지만 쿠버네티스 자체를 운영하는 것이 새로운 문제가 됐다."

클라우드 사업자들은 이 기회를 놓치지 않았다. 컨트롤 플레인의 설치·운영·업그레이드·백업을 대신 해주는 관리형 서비스를 경쟁적으로 출시했다.

관리형 서비스의 등장 타임라인

2014.11
Google Container Engine (GKE) 베타
최초의 관리형 K8s. K8s 원조인 Google이 선점. 2016년 GA
2017.6
Azure Kubernetes Service (AKS) 프리뷰
Microsoft의 관리형 K8s. Azure AD 통합. 2018년 GA
2017.11
AWS EKS 발표
re:Invent에서 발표. AWS가 마지막으로 참전. 2018.6 GA
2026
관리형이 기본값
CNCF 조사: K8s 사용 기업의 79%가 관리형 서비스 사용

관리형 서비스가 해주는 것 / 해주지 않는 것

관리형 서비스가 해주는 것
컨트롤 플레인(API Server, etcd, Scheduler) 설치·운영
컨트롤 플레인 고가용성 (멀티 AZ 자동 배포)
etcd 자동 백업·복구
K8s 버전 업그레이드 자동화/간소화
보안 패치 자동 적용
클라우드 IAM과 K8s RBAC 통합
여전히 직접 해야 하는 것
워커 노드 관리 (인스턴스 타입, 스케일링)
워크로드 배포 (Deployment, Service 등)
앱 수준 모니터링·로깅
네트워크 정책, 인그레스 설정
스토리지 프로비저닝
비용 최적화

비유하면: 관리형 K8s는 아파트에 입주하는 것이다. 건물 구조, 엘리베이터, 배관은 관리 사무소가 알아서 한다. 하지만 실내 인테리어, 가구 배치, 청소는 입주자의 몫이다.


2. AWS EKS: 가장 큰 시장, 가장 깊은 통합

EKS란

EKS(Elastic Kubernetes Service)는 AWS의 관리형 쿠버네티스 서비스다. 2018년 6월 GA 출시. 컨트롤 플레인을 AWS가 관리하고, 워커 노드는 EC2 인스턴스 또는 Fargate에서 실행된다.

EKS의 차별점

1. AWS 서비스와의 깊은 통합

EKS의 가장 큰 강점은 AWS의 200+ 서비스와 네이티브로 연결된다는 것이다:

  • IAM: K8s 서비스 어카운트와 IAM 역할 연동 (IRSA — IAM Roles for Service Accounts). Pod 단위로 AWS 권한 제어
  • ALB/NLB: AWS Load Balancer Controller가 K8s Ingress를 자동으로 ALB로 프로비저닝
  • EBS/EFS: CSI 드라이버로 K8s PersistentVolume을 EBS/EFS에 자동 연결
  • CloudWatch: Container Insights로 Pod/노드 메트릭 자동 수집
  • ECR: 이미지 레지스트리 네이티브 연동

2. 다양한 노드 옵션

노드 유형관리 수준적합한 경우
자체 관리 EC2사용자가 EC2 직접 관리커스텀 AMI, 특수 인스턴스 필요 시
관리형 노드 그룹AWS가 노드 프로비저닝·업데이트대부분의 표준 워크로드
Fargate서버 완전 불필요간헐적 워크로드, 소규모 서비스
KarpenterAI 기반 자동 노드 프로비저닝동적 워크로드, 비용 최적화

3. Karpenter — EKS의 킬러 기능

2021년 AWS가 오픈소스로 공개한 Karpenter는 K8s 노드 프로비저닝의 게임 체인저다. 기존 Cluster Autoscaler가 "미리 정의된 노드 그룹"에서 인스턴스를 추가하는 반면, Karpenter는:

  • Pod의 실제 요구사항을 분석하여 최적의 인스턴스 타입을 자동 선택
  • 수백 개의 EC2 인스턴스 타입 중에서 가격·성능 최적의 조합을 선정
  • 불필요한 노드를 자동으로 정리하여 비용 절감
  • 스팟 인스턴스를 자동으로 혼합하여 추가 절감
실전 효과: Karpenter를 도입한 기업들은 Cluster Autoscaler 대비 노드 프로비저닝 속도 60% 향상, 비용 20~40% 절감을 보고하고 있다. EKS를 선택한다면 Karpenter는 반드시 검토할 가치가 있다.

EKS 비용 구조

항목비용
컨트롤 플레인0.10/시간( 0.10/시간 (~73/월)
워커 노드 (EC2)EC2 인스턴스 비용
워커 노드 (Fargate)vCPU/메모리 사용량 기준
데이터 전송AZ 간 $0.01/GB
EBS 볼륨gp3 $0.08/GB/월
⚠️
비용 함정 — AZ 간 데이터 전송: 고가용성을 위해 Pod을 여러 AZ에 분산하면 AZ 간 트래픽 비용이 발생한다. 대규모 서비스에서 이 비용이 컨트롤 플레인 비용보다 커질 수 있다. 토폴로지 인식 라우팅(Topology Aware Routing)을 활성화하면 같은 AZ 내의 Pod으로 우선 라우팅하여 비용을 줄일 수 있다.

3. Google GKE: K8s 원조의 저력

GKE란

GKE(Google Kubernetes Engine)는 K8s를 만든 Google의 관리형 서비스다. 2015년 GA 출시로 최초의 관리형 K8s. K8s의 원조답게 가장 빠르게 새 버전을 지원하고, 가장 진보적인 기능을 제공한다.

GKE의 차별점

1. Autopilot 모드 — "노드도 관리하지 마라"

GKE의 가장 독특한 기능. 2021년 출시된 Autopilot은 노드 프로비저닝, OS 업데이트, 보안 패치까지 Google이 관리한다. 사용자는 Pod만 배포하면 된다.

GKE Standard
노드 풀을 직접 구성
인스턴스 타입, 수량 직접 결정
세밀한 커스터마이징 가능
노드 수준 접근 가능 (SSH)
GPU, TPU 워크로드
GKE Autopilot
노드 자동 프로비저닝
Pod 요청 기준 자동 스케일링
보안 설정 자동 적용 (강제)
노드 접근 불가
Pod 단위 과금 (사용량 기반)

Autopilot은 AWS Fargate와 비슷하지만, 완전한 K8s API 호환성을 유지한다. Fargate에서 불가능한 DaemonSet, 특정 볼륨 타입 등이 Autopilot에서는 가능하다.

2. AI/ML 워크로드 최적화

Google이 K8s 원조인 동시에 AI 선두주자라는 이점:

  • TPU 네이티브 지원: K8s에서 Google TPU를 직접 사용. AI 학습에 최적
  • GKE Inference Gateway: AI 추론 서빙 최적화. 모델별 자동 스케일링
  • Batch API: 대규모 AI 학습 작업을 K8s Job으로 효율적 관리

3. 컨트롤 플레인 무료

GKE Autopilot에서는 컨트롤 플레인 비용이 무료다. Standard 모드에서도 하나의 존(zonal) 클러스터는 무료이고, 리전(regional) 클러스터만 $0.10/시간이 과금된다.

GKE 비용 구조

항목StandardAutopilot
컨트롤 플레인 (Zonal)무료무료
컨트롤 플레인 (Regional)$0.10/시간무료
워커 노드GCE 인스턴스 비용vCPU/메모리/스토리지 사용량
커밋 사용 할인최대 57% (CUD)최대 57% (CUD)

4. Azure AKS: 엔터프라이즈의 선택

AKS란

AKS(Azure Kubernetes Service)는 Microsoft의 관리형 K8s 서비스다. 2018년 GA. 가장 큰 차별점은 Microsoft 엔터프라이즈 생태계와의 통합이다.

AKS의 차별점

1. Azure AD(Entra ID) 통합

대기업에서 가장 많이 쓰는 ID 시스템인 Azure AD와 K8s RBAC을 직접 연동한다. "마케팅팀의 김 대리는 staging 네임스페이스만 접근 가능" 같은 정책을 기존 AD 그룹으로 관리할 수 있다.

2. Windows 컨테이너 지원

AKS는 Windows Server 컨테이너를 가장 잘 지원하는 관리형 K8s다. .NET Framework 앱을 컨테이너화해야 하는 기업에게는 사실상 유일한 선택지다.

3. 컨트롤 플레인 완전 무료

AKS의 컨트롤 플레인은 무조건 무료다. EKS의 월 73,GKERegional의월73, GKE Regional의 월 73과 달리, AKS는 워커 노드 비용만 지불하면 된다.

항목AKS Free TierAKS StandardAKS Premium
컨트롤 플레인무료$0.10/시간$0.60/시간
SLA없음99.95% (멀티AZ)99.95% + LTS
장기 지원표준 (14개월)표준24개월 LTS
💡
비용 전략: 개발/테스트 환경은 AKS Free Tier(컨트롤 플레인 무료, SLA 없음)로, 프로덕션은 Standard/Premium으로 분리하면 비용을 최적화할 수 있다. EKS는 이런 티어 구분이 없어 모든 클러스터에 $73/월이 과금된다.

5. 3사 비교: 한눈에 보기

핵심 비교표

기준EKS (AWS)GKE (Google)AKS (Azure)
출시2018.620152018
컨트롤 플레인 비용$73/월무료~$73/월무료~$438/월
노드 자동화KarpenterAutopilotKEDA + Cluster Autoscaler
서버리스 옵션FargateAutopilotACI(Azure Container Instances)
K8s 버전 지원 속도보통가장 빠름보통
AI/MLSageMaker 연동TPU 네이티브, AI GatewayAzure ML 연동
Windows 컨테이너제한적제한적최고 수준
ID 통합IAM + IRSAGoogle WorkspaceAzure AD (Entra ID)
시장 점유율1위 (~40%)3위 (~15%)2위 (~25%)
강점AWS 생태계, KarpenterK8s 원조, Autopilot, TPU엔터프라이즈, Windows, 무료 CP

성숙도 비교: 어떤 기능이 가장 잘 돼 있나

관리형 K8s 기능 성숙도 비교
높을수록 해당 영역에서 경쟁 우위
자동 스케일링
GKE
AWS 통합
EKS
AI/ML
GKE
엔터프라이즈 ID
AKS
비용 효율
AKS
보안 강화
GKE

6. 선택 가이드: 당신의 팀에 맞는 관리형 K8s

의사결정 트리

다음 질문에 순서대로 답해보라:

Q1. 이미 주력으로 쓰는 클라우드가 있는가?

있다면 → 그 클라우드의 관리형 K8s를 쓰라. 네트워크, IAM, 스토리지, 모니터링이 모두 네이티브로 통합되어 있어 운영이 압도적으로 편하다. 멀티클라우드 전략이 아닌 이상, 다른 클라우드의 K8s를 일부러 선택할 이유가 없다.

Q2. 클라우드를 새로 시작한다면?

주 워크로드가 무엇인가?
일반 웹/API EKS (시장 1위, 인력 풀 최대)
AI/ML 집약 GKE (TPU, Autopilot)
.NET/Windows AKS (Windows 최고 지원)
비용 최소화 AKS Free 또는 GKE Autopilot

Q3. 팀의 경험은?

  • K8s 경험이 없는 소규모 팀 → ECS + Fargate를 먼저 고려. K8s가 반드시 필요하다면 GKE Autopilot
  • K8s 경험이 약간 있는 팀 → 주력 클라우드의 관리형 K8s + 관리형 노드 그룹
  • K8s 전문 인력이 있는 팀 → 주력 클라우드의 관리형 K8s + Karpenter/자체 노드 관리
가장 현실적인 조언: "최고의 관리형 K8s"는 없다. "당신의 팀이 이미 잘 아는 클라우드의 K8s"가 최고다. AWS를 잘 아는 팀이 GKE의 Autopilot이 좋다고 전환하면, K8s 운영 비용은 줄어도 클라우드 학습 비용이 폭증한다. 관리형 K8s 서비스 간의 기능 차이보다, 팀의 클라우드 숙련도가 성공에 훨씬 큰 영향을 미친다.

7. 실제 사례

Airbnb — EKS 전면 도입

Airbnb는 2019~2021년에 걸쳐 EC2 기반 인프라를 EKS로 전환했다. 수천 명의 엔지니어가 사용하는 내부 플랫폼을 K8s 위에 구축했다.

핵심 성과:

  • 새 서비스 배포 시간: 수 일 → 수 분
  • 개발자가 인프라를 직접 다루지 않아도 됨
  • Karpenter 도입으로 노드 비용 30% 절감

Spotify — GKE 올인

이전 글에서 다룬 Spotify의 1,800개 마이크로서비스는 GKE 위에서 돌아간다. Google Cloud와 K8s의 조합을 선택한 이유:

  • K8s 원조인 Google의 지원이 가장 빠름
  • 데이터 분석 워크로드에 BigQuery와의 통합이 유리
  • Backstage(내부 개발자 포털)를 K8s 네이티브로 구축

Maersk — AKS로 물류 혁신

세계 최대 컨테이너 해운 회사 Maersk(진짜 컨테이너를 운반하는 회사!)는 AKS를 사용한다. 전 세계 물류 시스템을 Azure 위의 K8s로 운영한다.

선택 이유: 기존에 Microsoft 365와 Azure AD를 전사적으로 사용하고 있었기 때문에, AKS와의 통합이 자연스러웠다.

한국 기업 사례

  • 카카오: 자체 데이터센터에서 K8s 운영 (DKOS). 퍼블릭 클라우드 대신 온프레미스 K8s 선택
  • 토스: EKS 기반. 금융 서비스의 보안 요구사항을 AWS 보안 서비스와 K8s OPA로 충족
  • 쿠팡: EKS 기반. 로켓배송 물류 시스템을 EKS에서 운영. Karpenter로 비용 최적화
  • 네이버: 자체 K8s 플랫폼 + NHN Cloud. 내부적으로 대규모 K8s 클러스터 운영

8. 멀티클라우드 쿠버네티스: 필요한가?

"K8s는 클라우드 중립이니까 멀티클라우드가 쉽다" — 현실은?

이론상으로 K8s는 어디서든 같은 API를 제공한다. 하지만 현실에서 멀티클라우드 K8s는 훨씬 복잡하다:

  • 스토리지: AWS의 EBS와 GCP의 Persistent Disk는 호환되지 않음
  • 로드밸런서: ALB와 GCP Load Balancer는 설정이 다름
  • IAM: 각 클라우드의 인증/인가 체계가 완전히 다름
  • 네트워크: VPC 설계, 서브넷 구조, DNS가 클라우드마다 다름
  • 모니터링: CloudWatch, Stackdriver, Azure Monitor — 각각 별도 설정

K8s의 Deployment, Service, Pod 같은 핵심 리소스는 이식 가능하지만, 실제 프로덕션 환경에서 쓰는 클라우드 연동 부분은 이식이 어렵다.

⚠️
현실적 판단: "벤더 종속 방지"를 위한 멀티클라우드 K8s는 대부분의 기업에게 오버엔지니어링이다. 두 클라우드를 모두 잘 아는 인력이 필요하고, 최소 공통분모만 사용해야 하므로 각 클라우드의 고급 기능을 쓸 수 없다. 멀티클라우드가 필요한 경우는 명확하다: 규제 요구, M&A로 인한 통합, 또는 특정 클라우드의 특수 서비스(GCP TPU 등)가 필요한 경우.

멀티클라우드가 정말 필요한 경우의 도구

진짜 멀티클라우드가 필요하다면:

  • Crossplane: K8s API로 여러 클라우드의 인프라를 선언적으로 관리
  • Terraform + K8s: 인프라는 Terraform으로, 워크로드는 K8s로 분리
  • Argo CD: GitOps로 여러 클러스터에 동시 배포
  • Istio: 서비스 메시로 클러스터 간 트래픽 관리

9. 2026년 관리형 K8s의 최신 트렌드

노드 관리마저 사라지는 방향

GKE Autopilot, EKS Fargate, AKS의 가상 노드 — 모든 사업자가 "워커 노드도 신경 쓰지 마라" 방향으로 진화하고 있다. 2026년의 관리형 K8s는 "컨트롤 플레인 관리형"에서 **"전체 클러스터 관리형"**으로 전환 중이다.

AI 워크로드 특화

GPU/TPU 스케줄링, 모델 서빙 자동화, 학습 작업 큐잉 — AI 워크로드를 위한 K8s 확장 기능이 빠르게 성숙하고 있다. 모든 3사가 AI를 최우선 투자 영역으로 두고 있다.

FinOps — K8s 비용 가시화

K8s에서의 비용 추적이 어렵다는 것이 오랜 과제였다. Kubecost, OpenCost 같은 도구가 Pod/네임스페이스/팀 단위의 비용을 분석해 준다. 모든 관리형 서비스가 비용 분석 기능을 강화하고 있다.


마치며: 도구가 아니라 문제에 집중하라

관리형 쿠버네티스 서비스를 선택하는 것은 도구를 고르는 것처럼 보이지만, 실제로는 팀의 역량과 비즈니스 요구에 맞는 추상화 수준을 고르는 것이다.

이 시리즈를 관통하는 선택지를 정리하면:

팀 상황추천이유
인프라 인력 0명, 빠르게 시작ECS + Fargate가장 낮은 운영 부담
AWS 중심, K8s 필요EKS + 관리형 노드 + KarpenterAWS 통합 + 비용 최적화
AI/ML 집약, 최신 K8sGKE AutopilotTPU, 자동 노드 관리
.NET/Windows, 엔터프라이즈AKSAD 통합, Windows 지원, 무료 CP
멀티클라우드 필수각 클라우드 관리형 + GitOpsArgo CD로 통합 배포
온프레미스 필수K8s 직접 운영 or Rancher규제 요구 충족

핵심은 이것이다: **"어떤 K8s가 최고인가?"가 아니라 "우리 팀이 무엇을 만들어야 하고, 인프라에 얼마나 투자할 수 있는가?"**가 올바른 질문이다.

코어닷투데이가 AI 아르스 키오스크를 클라우드와 엣지에 동시에 배포하는 것, Sharp-PINN을 고객사의 다양한 환경에 맞춤 배포하는 것 — 이런 유연한 배포가 가능한 것은, 컨테이너와 오케스트레이션이라는 표준 위에 서 있기 때문이다. 어떤 관리형 서비스를 쓰든, 그 아래의 쿠버네티스가 제공하는 이식성은 동일하다.