
P50 vs P95 특집: '평균 사용자'라는 환상을 버려라 — 백분위수가 바꾸는 제품 설계의 모든 것
당신의 '평균 사용자'는 존재하지 않는다. 1885년 골턴이 발명한 백분위수 개념이 2026년 AI 시대에 제품 설계, 성능 최적화, 가격 정책까지 뒤흔드는 이유를 파헤친다.

당신의 '평균 사용자'는 존재하지 않는다. 1885년 골턴이 발명한 백분위수 개념이 2026년 AI 시대에 제품 설계, 성능 최적화, 가격 정책까지 뒤흔드는 이유를 파헤친다.

카페에 100명의 손님이 있다고 해보자. 90명은 한 달에 한 번 아메리카노 한 잔을 사 마신다. 9명은 일주일에 두세 번 온다. 그리고 딱 1명 — 이 사람은 매일 출근하듯 와서, 프리미엄 원두를 주문하고, 텀블러를 사고, 원두 구독까지 한다.
이 카페의 "평균 손님"은 한 달에 커피 1.5잔을 마시는 사람이다. 그런데 재밌는 건, 그런 사람은 실제로 존재하지 않는다는 거다. 한 달에 1잔 마시는 90명과, 매일 오는 1명 사이의 수학적 유령일 뿐이다.
UX 리서치의 대부 Jakob Nielsen은 2024년 이 현상을 정면으로 다루며 이렇게 선언했다:
"평균 사용자는 디지털 제품의 끔찍한 설계 타겟이다."
그가 제시한 프레임워크의 핵심에는 통계학에서 태어나 소프트웨어 엔지니어링을 거쳐 제품 설계까지 혁명을 일으킨 하나의 개념이 있다 — 백분위수(Percentile), 그 중에서도 P50(중앙값)과 P95(상위 5%)의 대비.
이 글에서는 백분위수라는 개념이 어디서 태어나 어떻게 진화해 왔는지, 왜 2026년 AI 시대에 이것이 더 중요해졌는지, 그리고 실제로 제품을 만들 때 어떻게 적용하는지를 하나하나 파헤쳐 보겠다.
이야기는 1885년으로 거슬러 올라간다. 영국의 통계학자 프랜시스 골턴(Francis Galton)은 인간의 신체적 특성을 연구하던 중, 평균만으로는 집단을 제대로 설명할 수 없다는 사실을 깨달았다.
예를 들어 군대에서 신병의 평균 키가 175cm라는 정보는, 실제로 군복을 제작할 때 거의 쓸모가 없다. 155cm인 병사도, 195cm인 병사도 군복이 필요하기 때문이다. 골턴은 "집단의 특정 위치에 있는 값"을 표현할 방법이 필요했고, 이렇게 탄생한 개념이 바로 백분위수(Percentile)다.
골턴의 혁신은 단순했지만 강력했다: 평균이 아니라 분포를 봐야 한다.
평균의 문제를 가장 잘 보여주는 유명한 농담이 있다:
빌 게이츠가 바에 들어오면, 그 바에 있는 모든 사람의 평균 자산은 10억 달러가 넘는다.
이것이 바로 극단값(outlier)이 평균을 왜곡하는 현상이다. 디지털 제품에서는 이 현상이 더 극적으로 나타난다. 왜냐하면 물리적 세계와 달리, 디지털 세계의 사용 패턴은 정규분포(벨 커브)가 아니라 멱법칙 분포(Power Law)를 따르기 때문이다.

2006년, Jakob Nielsen은 온라인 커뮤니티를 연구하다가 충격적인 패턴을 발견한다. 이를 "참여 불평등(Participation Inequality)"이라 명명하고 90-9-1 법칙으로 정리했다:
| 그룹 | 비율 | 행동 | 비유 |
|---|---|---|---|
| 러커(Lurker) | 90% | 보기만 하고 아무것도 안 함 | 조용한 관객 |
| 기여자(Contributor) | 9% | 가끔 좋아요, 댓글 | 박수치는 관객 |
| 슈퍼유저(Creator) | 1% | 거의 모든 콘텐츠 생산 | 무대 위의 공연자 |
이 발견의 기원은 더 오래되었다. 1990년대 초 벨 통신 연구소(Bell Communications Research)의 윌 힐(Will Hill)이 처음으로 온라인 커뮤니티의 사용 패턴을 로그-로그 그래프로 그렸을 때, 그것은 완벽한 지프 법칙(Zipf's Law) 곡선이었다.
최근 데이터는 Nielsen의 원래 법칙보다 더 극단적인 현실을 보여준다. 퍼듀 대학교의 Sorin Adam Matei 교수팀은 위키피디아의 첫 10년간 2억 5천만 건의 편집 기록을 전수 분석했다. 결과는 충격적이었다:
위키피디아의 경우, 흥미로운 점이 하나 더 있다. 상위 1%의 약 40%는 5주마다 교체된다. 개별 편집자는 바뀌지만, "1%가 지배한다"는 구조 자체는 변하지 않는다. Matei 교수는 이들을 "정치적·종교적 운동처럼 사명감에 의해 움직이는 사람들"이라고 묘사했다.
스포티파이의 소비자 쪽 불평등은 더 극적이다. Rolling Stone이 2020년에 보도한 바에 따르면, 160만 명의 아티스트 중 상위 16,000명(1%)이 전체 스트리밍의 90%를 차지하고, 상위 160,000명(10%)이 99.4%를 차지한다. 스포티파이 Wrapped 데이터는 이를 청취자 관점에서도 확인해 준다 — 테일러 스위프트의 상위 0.005% 리스너는 연간 87,000분 이상(약 1,450시간)을 청취하는 반면, 평균 유저는 하루 148분이다.
여기서 중요한 질문이 나온다: 그렇다면 이 극소수의 '고래(Whale)' 유저를 어떻게 식별하고, 어떻게 서비스해야 하는가? 답은 백분위수에 있다.

Nielsen은 P50 유저를 "관광객(Tourist)", P95 유저를 "고래(Whale)"라고 불렀다. 같은 제품을 쓰지만, 이 둘은 완전히 다른 세계에 살고 있다.
| 특성 | P50 관광객 | P95 고래 |
|---|---|---|
| 방문 패턴 | 가끔, 외부 트리거에 의해 | 매일, 습관적으로 |
| 기능 활용 | 전체의 16% 사용 | 전체의 45%+ 사용 |
| 마찰 민감도 | 매우 높음 (조금만 불편해도 이탈) | 낮음 (목적이 명확) |
| 비즈니스 가치 | 낮음 | 극도로 높음 |
| 요구하는 것 | 단순함, 명확한 경로 | 깊이, 자동화, 커스터마이징 |
여기서 진짜 놀라운 건 P95/P50 비율이다. 이 비율은 도메인에 따라 3배에서 무한대까지 달라진다:
이 데이터가 의미하는 바는 명확하다. P95/P50 비율이 클수록, '평균'을 기준으로 한 설계는 더 치명적인 실수가 된다.
2026년 AI 시대에 이 격차는 더욱 극적이다. AI 코딩 어시스턴트의 사용 데이터를 보면:
| 지표 | P50 (관광객) | P95 (고래) | 격차 |
|---|---|---|---|
| 월간 메시지 수 | 12개 | 204개 | 17x |
| 프롬프트 평균 길이 | 50단어 (단일 턴) | 1,750단어 (6+ 턴) | 35x |
| 기능 활용률 | 16% | 45%+ | 2.8x |
| 3개월 리텐션 | 2.5% | 15.6% | 6.2x |
P50 유저는 "ChatGPT에게 한 줄 질문 던지기"를 한다. P95 유저는 "멀티턴 대화로 코드를 리뷰하고, 리팩토링하고, 테스트까지 작성하는 워크플로우"를 운영한다. 같은 도구를 쓰면서 완전히 다른 제품을 경험하고 있는 셈이다.
백분위수는 UX 설계뿐 아니라 시스템 성능 측정에서도 혁명을 일으켰다. 2013년, Google의 Jeff Dean과 Luiz André Barroso는 "The Tail at Scale"이라는 전설적인 논문을 발표한다.

핵심 통찰은 간단하지만 충격적이다:
단일 서버의 P99 레이턴시가 1초라면, 1%의 요청만 1초가 걸린다. 하지만 100대의 서버에서 병렬로 데이터를 수집하면, 63%의 요청이 1초 이상 걸리게 된다.
이것이 바로 "꼬리 레이턴시(Tail Latency)" 문제다. 확률적으로 계산하면:
대규모 시스템에서는 "꼬리가 몸통을 흔든다." 그래서 Amazon, Google, Netflix 같은 기업들은 평균 응답 시간이 아니라 P95, P99 레이턴시를 핵심 지표로 관리한다.
2006년, Amazon의 소프트웨어 엔지니어 Greg Linden은 A/B 테스트에서 역사적인 발견을 했다:
"100ms 단위로 페이지 로딩을 지연시키는 실험을 했더니, 아주 작은 지연조차 상당하고 비용이 큰 매출 하락을 초래했다."
구체적으로 100ms의 지연이 매출 1%를 감소시켰다. 2006년 기준으로 약 1억 700만 달러, 2024년 매출 기준으로 환산하면 약 38억 달러에 해당하는 금액이다 (ByteByteGo의 Alex Xu 분석). 같은 시기 Google의 Marissa Mayer도 비슷한 발견을 공유했다 — 검색 결과를 10개에서 30개로 늘려 로딩 시간이 0.4초에서 0.9초로 늘어나자, 트래픽과 매출이 20% 급감했다.
이 100ms가 중요한 이유는 평균이 아니라 P95 기준이기 때문이다. P50(중앙값) 유저는 이미 빠른 속도를 경험하고 있다. 문제는 P95 — 즉 20명 중 1명이 겪는 느린 경험이다. 그리고 아이러니하게도, 이 20명 중 1명이 바로 장바구니가 가득 찬 고래 유저일 확률이 높다. 복잡한 쿼리, 많은 상품 데이터, 긴 세션 — 헤비 유저일수록 시스템에 부하를 주고, 따라서 느린 응답을 받기 쉽다.
가장 돈을 많이 쓰는 유저가 가장 나쁜 경험을 하는 것. 이것이 P95를 봐야 하는 이유다.
Netflix API는 하루에 10억 건 이상의 인바운드 호출을 처리하고, 이것이 수십 개의 하위 시스템으로 수십억 건의 아웃바운드 호출로 팬아웃된다. 이 규모에서 P99를 관리하는 것은 생존의 문제다.
Netflix의 핵심 전략은 Hystrix 서킷 브레이커다. 각 의존성의 타임아웃을 "측정된 99.5번째 백분위수 성능"에 기반해 설정한다. 왜 이렇게까지 해야 할까? Netflix의 수학이 보여준다:
Netflix의 프리패치 호출은 P99 200ms 미만, 내부 큐잉 시스템(Timestone)은 P99 45ms를 유지한다. 이 숫자들은 "평균"이 아니라 "100번 중 99번째로 느린 요청"의 속도다.
Jeff Dean의 논문이 제시한 해결책 중 하나가 "헤지드 리퀘스트(Hedged Requests)"다:
이 전략은 전체 부하를 약 5%만 증가시키면서, P99 레이턴시를 극적으로 줄인다. 단순하지만 우아한 해법이다.

이제 핵심 질문에 도달했다. P50 관광객과 P95 고래의 니즈가 정반대라면, 대체 누구를 위해 설계해야 하는가?
Nielsen의 답은 명쾌하다: 둘 다. 하나의 인터페이스로 두 세계를 동시에 만족시키는 것이다. 그 핵심 전략이 바로 "점진적 공개(Progressive Disclosure)"다.
P50 관광객이 처음 만나는 화면은 극도로 단순해야 한다:
P95 고래가 파고들 수 있는 깊이를 제공해야 한다:
고급 기능을 "설정 > 고급"에 묻어두는 것이 아니라, 행동적 증거에 기반해 자연스럽게 노출한다:
핵심은 유저가 스스로 "나는 고급 유저야"라고 선택하게 하는 것이 아니라, 시스템이 행동 패턴을 관찰하고 적절한 시점에 깊이를 열어주는 것이다.
가장 야심찬 전략은 P50 유저를 P95로 끌어올리는 것이다:
Duolingo가 이 전략의 교과서적 사례다. 처음에는 5분짜리 간단한 퀴즈로 시작하지만, 연속 학습 일수, 리그 시스템, XP 보너스 등으로 유저를 점점 더 깊이 끌어들인다.
P95/P50 비율은 가격 정책 설계에도 직접적인 영향을 미친다:
| P95/P50 비율 | 추천 가격 모델 | 이유 | 사례 |
|---|---|---|---|
| 2x~5x | 정액제(Flat Rate) | 사용량 편차가 작아 예측 가능 | Netflix, Spotify |
| 5x~20x | 티어드(Tiered) | 중간 단계가 필요 | Slack, Notion |
| 20x~100x+ | 종량제(Usage-Based) | 극단적 사용량 차이 | AI API, 클라우드 |
AI 도구가 특히 종량제에 적합한 이유가 여기 있다. P95 유저가 P50의 35배에 달하는 토큰을 소비하는 상황에서, 같은 월 구독료를 받으면 고래 유저 한 명이 다른 유저 수십 명의 수익을 날려버린다.
OpenAI가 ChatGPT에서 사용량 제한과 Pro 플랜을 도입한 것, Anthropic이 Claude에서 토큰 기반 가격을 유지하는 것 모두 이 P95/P50 비율 분석에 기반한 결정이다.
한국의 테크 기업들도 백분위수 기반 모니터링을 핵심 인프라로 운용하고 있다. 카카오톡은 하루 89억 건의 메시지(초당 약 10만 건)를 처리한다. 이 규모에서 카카오의 내부 APM 시스템(Neo APM)은 적응형 샘플링(Adaptive Sampling)을 사용한다 — 느린 요청일수록 더 높은 비율로 샘플링하는 백분위수 인식 모니터링 기법이다. 평균만 보면 놓치는 P95 이상의 이상 징후를 포착하기 위함이다.
쿠팡의 핵심 서빙 플랫폼은 99.99% 가용성을 SLO(Service Level Objective)로 설정하고 있다. 이는 연간 다운타임 52분 이하를 의미한다. 캐시 레이어 최적화로 10배의 처리량 개선과 1/3의 레이턴시 감소를 달성했다. 데이터 웨어하우스는 기존 수 시간의 갱신 주기를 ClickHouse 도입으로 수십 초 단위로 단축했다.
네이버 플레이스(NAVER Place)는 NVIDIA TensorRT-LLM을 활용해 소형 언어 모델(SLM) 추론을 최적화했다. POI 매칭 레이턴시 0.119초, 응답 캐싱으로 17%의 연산 부하 절감을 달성했다. AI 서비스에서 P99 레이턴시를 관리하는 것이 곧 사용자 경험의 품질을 결정한다.
2026년, AI 도구의 보편화로 P95/P50 격차는 역사상 가장 극단적인 수준에 도달했다.
전통적인 소프트웨어에서 P95 유저는 같은 기능을 더 많이 사용하는 사람이었다. 하지만 AI 도구에서 P95 유저는 근본적으로 다른 방식으로 도구를 사용한다:
이 격차는 단순한 사용량 차이가 아니다. 사용 패러다임 자체가 다르다. P50은 AI를 "검색 엔진의 대체재"로 쓰고, P95는 AI를 "페어 프로그래머"이자 "팀원"으로 운용한다.
2026년 AI 제품을 만든다면, P95 유저를 위해 반드시 고려해야 할 것들:
Nielsen의 첫 번째 조언:
"산술 평균을 금지하고, 항상 전체 분포를 보라."
구체적으로, P25, P50, P75, P95, P99를 로그 스케일로 추적하라.
이 비율이 제품 전략의 방향을 결정한다:
전통적인 이탈 분석은 모든 유저를 동등하게 취급한다. 하지만 P95 분석을 적용하면:
시스템 성능 대시보드의 기본 지표를:
로 변경하라. 가장 많이 쓰는 유저가 가장 좋은 경험을 해야 한다.
멱법칙은 긍정적 행동에만 적용되지 않는다. 부정적 행동도 같은 분포를 따른다:
따라서 점진적 공개가 긍정적 고래에게 파워를 열어주듯, 부정적 극단 유저를 제한하는 메커니즘도 동일한 백분위수 프레임워크로 설계해야 한다. Rate limiting, 행동 기반 제재, 프로그레시브 패널티 — 이 모든 것이 P95/P99 분석에 기반한다.
엔터프라이즈 소프트웨어에서 흔한 문제: 구매를 결정하는 임원(P50)과 매일 사용하는 실무자(P95)의 니즈가 다르다. 임원에게는 깔끔한 대시보드와 ROI 보고서가 필요하고, 실무자에게는 키보드 단축키와 배치 처리가 필요하다. 둘 다 만족시키지 못하면 구매도, 사용도 일어나지 않는다.
1885년 골턴이 백분위수를 발명한 이래, 이 개념은 놀라운 여정을 거쳤다:
140년 전 골턴의 통찰은 결국 하나의 문장으로 요약된다:
평균은 누구도 대표하지 않는다. 분포를 봐라.
2026년을 살아가는 제품 설계자, 엔지니어, PM에게 이 메시지는 더욱 절실하다. AI가 사용 패턴의 격차를 극단으로 벌려놓은 지금, "평균 사용자"라는 환상에 기댄 설계는 양쪽 모두를 잃는 가장 확실한 방법이다.
관광객에게는 문을 활짝 열어주고, 고래에게는 바다 깊이 잠수할 수 있는 장비를 제공하라. 그것이 P50과 P95가 공존하는 제품의 비밀이다.