
Ollama 완전 가이드: 클라우드 없이 내 PC에서 AI를 돌리는 가장 쉬운 방법
ChatGPT에 월 $20을 내는 대신, 내 컴퓨터에서 무료로 AI를 돌릴 수 있다면? Ollama는 GitHub 16.5만 스타의 오픈소스 도구로, 한 줄 명령어로 LLM을 로컬에서 실행한다. 설치부터 모델 선택, Open WebUI 연동까지.

ChatGPT에 월 $20을 내는 대신, 내 컴퓨터에서 무료로 AI를 돌릴 수 있다면? Ollama는 GitHub 16.5만 스타의 오픈소스 도구로, 한 줄 명령어로 LLM을 로컬에서 실행한다. 설치부터 모델 선택, Open WebUI 연동까지.
ChatGPT Plus: 월 20. 연간 $240.
Ollama: 무료. 영원히. 내 PC에서 돌아간다. 데이터가 밖으로 나가지 않는다.
물론 트레이드오프가 있다 — 최신 프론티어 모델(GPT-4o, Claude Opus)의 성능은 못 따라간다. 하지만 일상적인 작업의 80%는 로컬 모델로 충분하다. 이메일 초안, 코드 보조, 번역, 요약, Q&A — 이런 작업에 매달 $20을 낼 필요가 있을까?
이 글은 Ollama로 로컬 AI를 시작하는 실전 가이드다.
Ollama는 LLM을 로컬에서 실행하는 오픈소스 도구다. 내부적으로 llama.cpp(C++ 기반 LLM 추론 엔진)를 감싸고, 모델 다운로드, 양자화, GPU 가속을 자동 처리한다.
| 항목 | Ollama |
|---|---|
| GitHub 스타 | 165,000+ |
| 가격 | 무료 (MIT 라이선스) |
| 지원 OS | macOS, Windows, Linux |
| 모델 수 | 100개 이상 (Llama, DeepSeek, Qwen, Gemma, Phi 등) |
| API | OpenAI 호환 (기존 앱과 즉시 연동 가능) |
핵심: ollama run llama3.1 — 이 한 줄로 70억 파라미터 AI 모델이 내 PC에서 작동한다.
macOS / Windows: ollama.com/download에서 설치 파일 다운로드
Linux:
curl -fsSL https://ollama.ai/install.sh | sh
확인:
ollama --version
# 가볍고 빠른 모델로 시작
ollama run gemma3:4b
첫 실행 시 모델을 자동 다운로드한다 (4B 모델 ≈ 2~3 GB). 이후에는 즉시 시작.
>>> 안녕하세요, 자기소개를 해주세요.
저는 Google이 만든 Gemma 모델입니다. 한국어를 포함한 여러
언어로 대화할 수 있습니다. 무엇을 도와드릴까요?
끝. 클라우드 계정도, API 키도, 신용카드도 필요 없다.
| 모델 | 다운로드 | 파라미터 | 강점 |
|---|---|---|---|
| Llama 3.1 | 1.11억 | 8B/70B | 범용 최강, 대화·코딩·추론 |
| DeepSeek-R1 | 7,900만 | 8B/32B | 단계별 추론, 수학에 강점 |
| Qwen 3 | — | 7B/14B | 코딩 HumanEval 76.0%, 다국어 |
| Gemma 3 | — | 4B | 가볍고 빠름, 이미지도 이해 |
| Phi-4 mini | — | 3.8B | 8GB RAM에서 작동, MMLU 68.5% |
터미널이 불편하다면 Open WebUI를 설치하면 ChatGPT와 동일한 웹 인터페이스에서 로컬 모델을 사용할 수 있다.
GitHub 스타: 124,000+ | 다운로드: 2.82억+
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
브라우저에서 http://localhost:3000 접속 → 계정 생성 → Ollama의 모델이 자동으로 연결.
| 항목 | Ollama | LM Studio | GPT4All |
|---|---|---|---|
| 인터페이스 | CLI + API | GUI + API | GUI |
| 최적 사용자 | 개발자, 자동화 | 파워 유저 | 초보자 |
| API | OpenAI 호환 | OpenAI 호환 | 제한적 |
| 텔레메트리 | 없음 | 일부 | 없음 |
| 문서 RAG | Open WebUI 통해 | 내장 | 내장 (LocalDocs) |
| 오픈소스 | 완전 | 부분 | 완전 |
세 도구 모두 내부적으로 llama.cpp를 사용하므로, 같은 모델·같은 양자화의 추론 속도는 거의 동일하다. 차이는 인터페이스와 생태계.
추천:
| 항목 | ChatGPT Plus | Ollama (로컬) |
|---|---|---|
| 월 비용 | $20 | $0 |
| 연 비용 | $240 | 전기료 |
| 모델 업데이트 | 자동 | ollama pull 명령 |
| 데이터 프라이버시 | OpenAI 서버 경유 | 기기 밖으로 나가지 않음 |
| 오프라인 사용 | 불가 | 가능 |
| 응답 품질 | GPT-4o (최고) | 모델에 따라 80~95% |
$300짜리 GPU 업그레이드 + Ollama = 월 1,000건 API 호출 기준 6개월이면 손익분기.
의료, 법률, 금융 같은 규제 산업에서 로컬 AI의 프라이버시 이점은 비용 절감보다 더 큰 가치가 있다.
Ollama는 단독으로도 유용하지만, OpenClaw와 결합하면 진정한 위력을 발휘한다. OpenClaw의 하트비트, 간단한 작업 처리를 로컬 모델로 돌리면 API 비용을 60~85% 절감할 수 있다.
# Ollama에서 모델 실행
ollama run qwen3:7b
# OpenClaw에서 로컬 모델을 기본값으로 설정
# config.yaml에서 provider를 ollama로, 모델을 qwen3:7b로 지정
복잡한 추론만 Claude/GPT로 라우팅하고, 나머지는 로컬에서 처리하는 하이브리드 아키텍처가 2026년 가장 실용적인 접근이다.
Ollama가 GitHub 16.5만 스타를 넘긴 이유는 단순하다: AI를 쓰기 위해 거대 기업에 의존하지 않아도 된다는 것을 보여줬기 때문이다.
한 줄 명령어로 AI를 설치하고, 내 데이터가 밖으로 나가지 않으며, 매달 돈을 내지 않는다. 프론티어 모델의 100%를 재현하지는 못하지만, 80%면 충분한 작업이 대부분이다.
시작하는 법:
# 1. 설치
# macOS: brew install ollama
# Linux: curl -fsSL https://ollama.ai/install.sh | sh
# 2. 첫 모델 실행
ollama run llama3.1
# 3. (선택) ChatGPT 스타일 UI
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data ghcr.io/open-webui/open-webui:main
3분이면 된다.