Ollama로컬 AILLMOpen WebUI프라이버시

Ollama 완전 가이드: 클라우드 없이 내 PC에서 AI를 돌리는 가장 쉬운 방법

ChatGPT에 월 $20을 내는 대신, 내 컴퓨터에서 무료로 AI를 돌릴 수 있다면? Ollama는 GitHub 16.5만 스타의 오픈소스 도구로, 한 줄 명령어로 LLM을 로컬에서 실행한다. 설치부터 모델 선택, Open WebUI 연동까지.

코어닷투데이2025-12-3112분

들어가며: 클라우드에 돈을 내지 않는 AI

ChatGPT Plus: 월 $20. Claude Pro: 월$ 20. 연간 $240.

Ollama: 무료. 영원히. 내 PC에서 돌아간다. 데이터가 밖으로 나가지 않는다.

물론 트레이드오프가 있다 — 최신 프론티어 모델(GPT-4o, Claude Opus)의 성능은 못 따라간다. 하지만 일상적인 작업의 80%는 로컬 모델로 충분하다. 이메일 초안, 코드 보조, 번역, 요약, Q&A — 이런 작업에 매달 $20을 낼 필요가 있을까?

이 글은 Ollama로 로컬 AI를 시작하는 실전 가이드다.

제1장: Ollama란 무엇인가

Ollama는 LLM을 로컬에서 실행하는 오픈소스 도구다. 내부적으로 llama.cpp(C++ 기반 LLM 추론 엔진)를 감싸고, 모델 다운로드, 양자화, GPU 가속을 자동 처리한다.

항목	Ollama
GitHub 스타	165,000+
가격	무료 (MIT 라이선스)
지원 OS	macOS, Windows, Linux
모델 수	100개 이상 (Llama, DeepSeek, Qwen, Gemma, Phi 등)
API	OpenAI 호환 (기존 앱과 즉시 연동 가능)

핵심: ollama run llama3.1 — 이 한 줄로 70억 파라미터 AI 모델이 내 PC에서 작동한다.

제2장: 설치와 첫 실행

설치

macOS / Windows: ollama.com/download에서 설치 파일 다운로드

Linux:

hljs language-bash

curl -fsSL https://ollama.ai/install.sh | sh

확인:

hljs language-bash

ollama --version

첫 모델 실행

hljs language-bash

# 가볍고 빠른 모델로 시작
ollama run gemma3:4b

첫 실행 시 모델을 자동 다운로드한다 (4B 모델 ≈ 2~3 GB). 이후에는 즉시 시작.

>>> 안녕하세요, 자기소개를 해주세요.
저는 Google이 만든 Gemma 모델입니다. 한국어를 포함한 여러
언어로 대화할 수 있습니다. 무엇을 도와드릴까요?

끝. 클라우드 계정도, API 키도, 신용카드도 필요 없다.

제3장: 하드웨어별 추천 모델

어떤 모델을 돌릴 수 있는가?

하드웨어별 추천 모델

입문 (8GB RAM, GPU 없음) ~15~20 tok/s Phi-4 mini (3.8B), Gemma 3 4B — 일반 대화, 간단한 코딩, 번역

중급 (16GB RAM, RTX 3070/M1~M2) ~25~35 tok/s Qwen 3 7B, Llama 3.1 8B, DeepSeek-R1 8B — 코딩, 분석, 추론

고급 (32GB+ RAM, RTX 4090/M2 Pro~Max) ~15~25 tok/s Llama 3.1 70B, Qwen 3.5 27B, DeepSeek-R1 32B — 클라우드급 품질

모델	다운로드	파라미터	강점
Llama 3.1	1.11억	8B/70B	범용 최강, 대화·코딩·추론
DeepSeek-R1	7,900만	8B/32B	단계별 추론, 수학에 강점
Qwen 3	—	7B/14B	코딩 HumanEval 76.0%, 다국어
Gemma 3	—	4B	가볍고 빠름, 이미지도 이해
Phi-4 mini	—	3.8B	8GB RAM에서 작동, MMLU 68.5%

제4장: Open WebUI — ChatGPT 같은 인터페이스

터미널이 불편하다면 Open WebUI를 설치하면 ChatGPT와 동일한 웹 인터페이스에서 로컬 모델을 사용할 수 있다.

GitHub 스타: 124,000+ | 다운로드: 2.82억+

설치 (Docker 한 줄)

hljs language-bash

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

브라우저에서 http://localhost:3000 접속 → 계정 생성 → Ollama의 모델이 자동으로 연결.

주요 기능

멀티 모델 채팅: 여러 모델을 동시에 비교
문서 RAG: PDF, 문서를 업로드하고 AI와 대화
사용자 관리: 팀원별 계정, 대화 기록
웹 검색 연동: 실시간 정보 검색 후 답변
대화 기록: 모든 대화가 로컬에 저장

제5장: 비교 — Ollama vs LM Studio vs GPT4All

항목	Ollama	LM Studio	GPT4All
인터페이스	CLI + API	GUI + API	GUI
최적 사용자	개발자, 자동화	파워 유저	초보자
API	OpenAI 호환	OpenAI 호환	제한적
텔레메트리	없음	일부	없음
문서 RAG	Open WebUI 통해	내장	내장 (LocalDocs)
오픈소스	완전	부분	완전

세 도구 모두 내부적으로 llama.cpp를 사용하므로, 같은 모델·같은 양자화의 추론 속도는 거의 동일하다. 차이는 인터페이스와 생태계.

제6장: 비용 절감 효과

Cloud API vs 로컬

항목	ChatGPT Plus	Ollama (로컬)
월 비용	$20	$0
연 비용	$240	전기료 ~~$10~~20
모델 업데이트	자동	`ollama pull` 명령
데이터 프라이버시	OpenAI 서버 경유	기기 밖으로 나가지 않음
오프라인 사용	불가	가능
응답 품질	GPT-4o (최고)	모델에 따라 80~95%

$300짜리 GPU 업그레이드 + Ollama = 월 1,000건 API 호출 기준 6개월이면 손익분기.

프라이버시의 가치

평균 데이터 유출 비용: $444만 (IBM)
GDPR 벌금: 글로벌 매출의 최대 4%
로컬 LLM: "제로 트러스트 경계" — 데이터가 물리적으로 기기를 떠나지 않음

의료, 법률, 금융 같은 규제 산업에서 로컬 AI의 프라이버시 이점은 비용 절감보다 더 큰 가치가 있다.

제7장: Ollama + OpenClaw — 로컬 AI 에이전트

Ollama는 단독으로도 유용하지만, OpenClaw와 결합하면 진정한 위력을 발휘한다. OpenClaw의 하트비트, 간단한 작업 처리를 로컬 모델로 돌리면 API 비용을 60~85% 절감할 수 있다.

hljs language-bash

# Ollama에서 모델 실행
ollama run qwen3:7b

# OpenClaw에서 로컬 모델을 기본값으로 설정
# config.yaml에서 provider를 ollama로, 모델을 qwen3:7b로 지정

복잡한 추론만 Claude/GPT로 라우팅하고, 나머지는 로컬에서 처리하는 하이브리드 아키텍처가 2026년 가장 실용적인 접근이다.

맺으며: AI 민주화의 도구

Ollama가 GitHub 16.5만 스타를 넘긴 이유는 단순하다: AI를 쓰기 위해 거대 기업에 의존하지 않아도 된다는 것을 보여줬기 때문이다.

한 줄 명령어로 AI를 설치하고, 내 데이터가 밖으로 나가지 않으며, 매달 돈을 내지 않는다. 프론티어 모델의 100%를 재현하지는 못하지만, 80%면 충분한 작업이 대부분이다.

시작하는 법:

hljs language-bash

# 1. 설치
# macOS: brew install ollama
# Linux: curl -fsSL https://ollama.ai/install.sh | sh

# 2. 첫 모델 실행
ollama run llama3.1

# 3. (선택) ChatGPT 스타일 UI
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data ghcr.io/open-webui/open-webui:main

3분이면 된다.

Ollama 완전 가이드: 클라우드 없이 내 PC에서 AI를 돌리는 가장 쉬운 방법

들어가며: 클라우드에 돈을 내지 않는 AI

제1장: Ollama란 무엇인가

제2장: 설치와 첫 실행

설치

첫 모델 실행

제3장: 하드웨어별 추천 모델

어떤 모델을 돌릴 수 있는가?

인기 모델 Top 5

제4장: Open WebUI — ChatGPT 같은 인터페이스

설치 (Docker 한 줄)

주요 기능

제5장: 비교 — Ollama vs LM Studio vs GPT4All

제6장: 비용 절감 효과

Cloud API vs 로컬

프라이버시의 가치

제7장: Ollama + OpenClaw — 로컬 AI 에이전트

맺으며: AI 민주화의 도구

참고 자료

관련 포스트

From RAG to Memory: AI에게 '기억'을 가르치다 — HippoRAG 2 논문 완전 해부

뉴럴 그래프 데이터베이스: AI가 '관계'를 이해하는 시대의 데이터 관리 혁명

GraphRAG는 정말 효과적인가? — ICLR 2026 논문이 밝힌 9가지 진실

RAFT 특집: 시험 공부하듯 AI를 훈련시키는 법 — RAG와 파인튜닝의 황금 교차점