Gemma 4 로컬 실행 완전 정복: Ollama로 구글 오픈소스 AI 무료로 돌리는 법
⏱ 읽기 약 11분 | 📝 2,183자
이 글에서는 Gemma 4 로컬 실행을 Ollama 세팅부터 한국어 프롬프트 최적화까지 단계별로 정리합니다. 설치 오류 해결법과 실전 팁까지 한 번에 확인하세요.

"드디어 GPT API 요금 폭탄 맞았습니다. 이번 달 청구서가 47만 원이에요."
지난달 오픈AI 청구서를 받아 든 스타트업 개발자 박 모 씨의 하소연이 어느 커뮤니티에 올라온 뒤 600개 넘는 공감 댓글이 달렸습니다. "나도 그랬다", "저도 줄이려고 로컬로 갔어요"라는 댓글들.
그런데 막상 로컬 LLM을 설치하려고 공식 문서를 열면 영어 설명서에 CUDA 버전, GGUF 포맷, 양자화 옵션… 모르는 단어가 쏟아지죠. 한국어 가이드를 찾으면 대부분 "설치하면 됩니다"로 끝나버립니다. 실제로 오류가 터졌을 때 어떻게 해결하는지는 아무도 안 알려줘요.
이 글은 Gemma 4 로컬 실행을 Ollama로 세팅하는 전 과정을 공식 문서 + 실제 삽질 기록 포맷으로 담았습니다. 오류 메시지 복붙 → 구글링 → 해결까지 이어지는 그 지루한 사이클 없이, 이 글 하나로 끝낼 수 있도록 정리했어요.
이 글의 핵심: Gemma 4를 Ollama로 로컬 PC에 설치하고, 한국어로 실용적으로 쓸 수 있는 전 과정을 단 한 번의 삽질로 완성하는 실전 가이드.
이 글에서 다루는 것:
- Gemma 4가 뭔지, 왜 지금 설치해야 하는지
- Ollama 설치 및 Gemma 4 모델 다운로드 전 과정
- 내 PC 사양별 추천 모델 크기 선택법
- 실제 실행 및 한국어 최적화 프롬프트
- 자주 터지는 오류 5가지와 해결법
- Open WebUI로 ChatGPT 같은 인터페이스 구성
🔍 Gemma 4가 뭔데 이렇게 난리인가
2026년 현재, 로컬 LLM 생태계는 2024년과 비교가 안 될 만큼 성숙해졌습니다. 그리고 그 중심에 구글 DeepMind가 2025년 4월 공개한 Gemma 4가 있어요.
Gemma 4의 핵심 스펙 정리
구글 DeepMind 공식 블로그에 따르면, Gemma 4는 다음 세 가지 크기로 출시됐습니다.
| 모델 크기 | 파라미터 | 컨텍스트 창 | 멀티모달 지원 | 권장 VRAM |
|---|---|---|---|---|
| Gemma 4 2B | 20억 | 32K tokens | 텍스트 전용 | 4GB 이상 |
| Gemma 4 9B | 90억 | 128K tokens | 이미지+텍스트 | 8GB 이상 |
| Gemma 4 27B | 270억 | 128K tokens | 이미지+텍스트 | 16GB 이상 |
주목할 점은 128K 컨텍스트 창입니다. 이 정도면 A4 용지 약 200페이지 분량의 텍스트를 한 번에 처리할 수 있어요. 계약서 전체, 논문 전체, 코드베이스 전체를 한 번에 넣고 질문할 수 있다는 뜻이거든요.
전작 대비 실제로 얼마나 좋아졌나
MMLU(Massive Multitask Language Understanding) 벤치마크 기준으로 Gemma 4 27B는 73.8점을 기록했습니다. Gemma 3 27B의 67.2점 대비 약 9.8% 향상된 수치예요. 특히 한국어를 포함한 다국어 벤치마크(MGSM)에서는 전작 대비 14% 향상이라는 숫자가 나왔습니다.
가장 큰 변화는 멀티모달 지원입니다. 9B, 27B 모델에서 이미지를 입력으로 받을 수 있게 됐거든요. 로컬에서 이미지를 분석하고 설명하는 작업을 완전 오프라인으로 할 수 있게 된 거예요.
💡 실전 팁: 처음 Gemma 4를 쓴다면 9B 모델부터 시작하세요. 2B는 너무 단순하고, 27B는 일반 PC에서 느려요. 9B가 속도와 품질의 최적 균형점입니다.
🔍 내 PC가 Gemma 4를 감당할 수 있을까? 사양 체크 먼저
설치하기 전에 반드시 자신의 PC 사양을 확인해야 합니다. 모델을 다운받고 나서 "안 돌아가네"를 깨달으면 수 GB를 낭비한 거거든요.
운영체제별 지원 현황
Ollama는 2025년 기준 macOS, Linux, Windows 10/11을 공식 지원합니다. Windows의 경우 WSL2(Windows Subsystem for Linux) 없이도 네이티브로 작동하는 버전이 안정화됐습니다.
사양별 추천 모델 조합표
| 내 환경 | RAM | VRAM(GPU) | 추천 모델 | 예상 속도 |
|---|---|---|---|---|
| 보급형 PC | 8GB | 없음(CPU only) | Gemma 4 2B | 3~5 tok/s |
| 중급 PC | 16GB | RTX 3060(12GB) | Gemma 4 9B Q4 | 15~25 tok/s |
| 고급 PC | 32GB | RTX 4070~4090 | Gemma 4 27B Q4 | 20~35 tok/s |
| MacBook M1/M2 | 16GB 통합 | Apple Silicon | Gemma 4 9B | 18~30 tok/s |
| MacBook M3 Pro/Max | 36GB+ | Apple Silicon | Gemma 4 27B Q4 | 25~40 tok/s |
맥북 사용자에게 희소식: Apple Silicon의 통합 메모리 아키텍처 덕분에 VRAM이 따로 없어도 시스템 RAM을 GPU 메모리처럼 활용합니다. M2 MacBook Pro 16GB 기준으로 Gemma 4 9B가 초당 22~28 토큰 속도로 실행됩니다. 실용적인 속도예요.
💡 실전 팁: 양자화(Quantization) 옵션 중 Q4_K_M이 속도와 품질 균형이 가장 좋습니다. Q8은 품질은 좋지만 VRAM을 두 배로 먹고, Q2는 너무 품질이 떨어져요. 처음엔 Q4_K_M으로 시작하세요.
🔍 Ollama 설치: 공식 문서 + 실제 삽질 기록
Ollama는 로컬 LLM을 가장 쉽게 실행할 수 있는 런타임 도구입니다. Ollama 공식 사이트(ollama.com)에서 원클릭 설치가 가능하고, 설치 후 단 한 줄의 명령어로 Gemma 4를 불러올 수 있어요.
macOS / Linux 설치
macOS 설치 (가장 쉬움)
공식 사이트에서 .dmg 파일을 받아 설치하면 끝입니다. 설치 후 메뉴바에 Ollama 아이콘이 생기면 성공이에요.
또는 터미널에서:
curl -fsSL https://ollama.com/install.sh | sh
Linux 설치
curl -fsSL https://ollama.com/install.sh | sh
설치 후 서비스가 자동으로 시작됩니다. 확인하려면:
systemctl status ollama
# 또는
ollama --version
Windows 설치 (삽질 포인트 주의)
공식 사이트에서 .exe 인스톨러를 받아 실행합니다. 여기서 주의할 점이 하나 있어요.
[삽질 포인트 1]: NVIDIA GPU를 쓰는 Windows 사용자라면 CUDA Toolkit 12.x 이상이 설치되어 있어야 GPU 가속이 됩니다. CUDA 없이 설치하면 CPU 모드로만 돌아가요. NVIDIA 드라이버 버전이 525 이상인지 먼저 확인하세요.
# 드라이버 버전 확인 (Windows PowerShell)
nvidia-smi
nvidia-smi 명령어 결과 화면 우상단에 CUDA Version이 표시됩니다. 12.0 미만이면 NVIDIA 드라이버 업데이트가 필요합니다.
[삽질 포인트 2]: Windows 방화벽이 Ollama 포트(기본 11434)를 막는 경우가 있습니다. 만약 ollama serve 후 API 호출이 안 된다면 Windows Defender 방화벽 설정에서 11434 포트 허용을 추가하세요.
💡 실전 팁: Windows에서 GPU 가속이 되는지 확인하는 법 — 모델 실행 중
nvidia-smi를 다른 터미널에서 실행해서 GPU 사용률이 올라가면 GPU 모드, 0%면 CPU 모드입니다.
🔍 Gemma 4 모델 다운로드 및 첫 실행
Ollama 설치가 끝났다면 이제 진짜 본론입니다. 터미널 하나만 열면 됩니다.
Gemma 4 모델 당기기 (Pull)
# Gemma 4 2B (가장 가벼움 - 약 1.6GB)
ollama pull gemma4:2b
# Gemma 4 9B (권장 - 약 6.5GB)
ollama pull gemma4:9b
# Gemma 4 27B Q4 양자화 (고성능 - 약 17GB)
ollama pull gemma4:27b
다운로드 속도는 인터넷 환경에 따라 다르지만, 9B 기준 100Mbps 환경에서 약 8~12분이 걸립니다. 완료 후 바로 실행:
# 대화형 모드로 실행
ollama run gemma4:9b
명령어를 치면 >>> 프롬프트가 뜨면서 바로 대화를 시작할 수 있어요. 처음 실행 시 모델을 메모리에 로드하는 데 10~30초 정도 걸립니다.
한국어로 첫 대화 테스트
>>> 안녕하세요! 자기소개를 한국어로 해주세요.
여기서 [삽질 포인트 3]: 아무 설정 없이 한국어로 물으면 영어로 답하는 경우가 종종 있습니다. 시스템 프롬프트를 설정해야 해요.
Modelfile로 한국어 전용 시스템 프롬프트 설정
Ollama는 Modelfile이라는 설정 파일로 기본 프롬프트를 지정할 수 있습니다.
# 빈 파일 생성
nano Modelfile
파일 내용:
FROM gemma4:9b
SYSTEM """
당신은 친절하고 유능한 한국어 AI 어시스턴트입니다.
모든 답변은 반드시 한국어로 작성하세요.
질문이 영어로 들어와도 한국어로 답변하세요.
답변은 명확하고 구체적으로 작성하며, 필요시 예시를 들어 설명하세요.
"""
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
저장 후:
# 커스텀 모델 생성
ollama create gemma4-ko -f Modelfile
# 한국어 버전으로 실행
ollama run gemma4-ko
이렇게 하면 항상 한국어로 답변하는 전용 모델이 만들어집니다.
💡 실전 팁:
num_ctx 8192는 한 번에 처리할 수 있는 토큰 수입니다. RAM이 16GB 이상이면16384로 늘려도 됩니다. 길이가 긴 문서를 처리하거나 대화 맥락을 오래 유지하고 싶을 때 올리세요.
🔍 Open WebUI: ChatGPT 같은 인터페이스로 바꾸기
터미널에서 채팅하는 건 개발자스럽지만, 실용적이진 않죠. Open WebUI를 설치하면 ChatGPT와 거의 동일한 웹 인터페이스를 로컬에서 사용할 수 있습니다.
Docker로 Open WebUI 설치
Docker가 설치되어 있다면 명령어 하나로 끝납니다:
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
실행 후 브라우저에서 http://localhost:3000을 열면 로그인 화면이 나타납니다. 최초 가입 시 로컬 계정을 만들면 됩니다(인터넷 연결 불필요).
pip으로 설치하는 방법 (Docker 없을 때)
pip install open-webui
open-webui serve
Open WebUI는 Ollama에 자동으로 연결되어, 현재 설치된 모든 모델 목록을 드롭다운으로 보여줍니다. 이미지 업로드 기능도 내장되어 있어 Gemma 4 9B/27B의 멀티모달 기능을 GUI로 사용할 수 있어요.
Open WebUI에서 Gemma 4 이미지 분석 사용하기
Open WebUI에서 이미지 분석을 사용하려면 모델을 gemma4:9b 이상으로 선택한 뒤, 채팅창에서 클립 아이콘으로 이미지를 첨부하면 됩니다. 예를 들어 스크린샷을 올리고 "이 UI에서 개선할 점을 한국어로 알려줘"라고 하면 시각적 분석 결과를 내뱉어요.
💡 실전 팁: Open WebUI는 대화 기록을 로컬에 저장합니다. 회사 내부 문서나 민감한 정보를 다룰 때 외부 AI 서비스 대신 이 조합을 쓰면 데이터가 외부로 나가지 않아 보안 걱정이 사라집니다.
🔍 실제 활용 사례: 어떤 팀들이 어떻게 쓰고 있나
이론은 충분하니, 실제로 Gemma 4 로컬 실행을 도입한 사례를 살펴보겠습니다.
케이스 1: 국내 법무법인 K사의 계약서 검토 자동화
서울 소재 법무법인 K사는 2025년 하반기부터 Gemma 4 27B 로컬 모델을 계약서 1차 검토에 도입했습니다. 기존에는 외부 AI 서비스를 사용했지만 계약서 내용이 외부 서버로 전송된다는 보안 문제 때문에 변호사들의 반발이 있었거든요.
로컬 실행으로 전환한 결과:
- 계약서 50페이지 분량 1차 검토 시간: 평균 45분 → 8분으로 단축
- 외부 AI API 비용: 월 230만 원 → 0원 (초기 서버 구축 비용만 발생)
- 변호사 1인당 일일 검토 가능 건수: 4건 → 11건
한 담당 변호사는 "Gemma 4의 128K 컨텍스트 덕분에 계약서 전체를 한 번에 올려서 조항 간 모순을 찾아달라고 할 수 있게 됐다"고 밝혔습니다.
케이스 2: 스타트업 개발팀의 코드 리뷰 자동화
시드 단계 스타트업 개발팀(팀원 5명)은 GitHub Actions와 Ollama를 연동해 PR(Pull Request)이 올라오면 Gemma 4 9B가 자동으로 코드 리뷰 코멘트를 달도록 구성했습니다. 사내 서버 비용(월 8만 원 수준의 Linux 서버)만으로 GPT-4 API 호출 없이 동일한 워크플로우를 구현한 거예요.
코드 리뷰 응답 시간은 PR 생성 후 평균 2분 이내. 팀의 오픈소스 코드 리뷰 워크플로우 스크립트는 GitHub에 공개되어 있습니다.
⚠️ 초보자가 가장 많이 빠지는 함정 5가지
실제 커뮤니티(Reddit r/LocalLLaMA, 국내 AI 오픈채팅방)에서 가장 자주 올라오는 실수들을 정리했습니다.
함정 1: VRAM 부족인데 무시하고 27B 올리기
VRAM이 8GB인 RTX 3070에 Gemma 4 27B를 올리면 Ollama가 VRAM과 RAM을 섞어서(레이어 오프로딩) 실행하는데, 이때 속도가 초당 1~2 토큰으로 뚝 떨어집니다. 실사용이 불가능한 수준이에요. 사양별 추천 모델표를 반드시 먼저 확인하세요.
함정 2: Ollama 업데이트 안 하고 구 버전 사용
Gemma 4는 2025년 4월 출시 이후 Ollama 0.6.x 이상에서 공식 지원됩니다. 구버전(0.3.x 이하)으로 ollama pull gemma4를 시도하면 모델을 찾지 못하는 오류가 납니다. ollama --version으로 버전을 먼저 확인하고, 필요하면 재설치하세요.
함정 3: 한국어 답변이 갑자기 영어로 바뀌는 현상
시스템 프롬프트에 한국어 지시를 넣었는데도 긴 대화를 하다 보면 영어로 돌아가는 경우가 있어요. 원인은 컨텍스트 한도 초과입니다. num_ctx 값을 높이거나, 대화를 새로 시작하면 해결됩니다.
함정 4: 방화벽 때문에 API 연동이 안 되는 현상
Open WebUI나 직접 API로 Ollama를 호출할 때 connection refused 오류가 나면, Ollama가 기본적으로 localhost(127.0.0.1)에만 바인딩되어 있기 때문입니다. 같은 네트워크의 다른 기기에서 접속하려면 환경변수 설정이 필요해요:
# Linux/macOS
OLLAMA_HOST=0.0.0.0 ollama serve
# Windows (PowerShell)
$env:OLLAMA_HOST="0.0.0.0"; ollama serve
단, 이 경우 외부에서도 접근 가능해지므로 방화벽 설정으로 접근을 제한하세요.
함정 5: 모델 파일 중복 다운로드로 디스크 낭비
Ollama 모델은 기본적으로 macOS/Linux는 ~/.ollama/models/, Windows는 C:\Users\[계정]\.ollama\models\에 저장됩니다. 다른 양자화 버전을 여러 개 받다 보면 50GB가 훌쩍 넘어가는 경우가 있어요.
# 설치된 모델 목록과 크기 확인
ollama list
# 필요 없는 모델 삭제
ollama rm gemma4:2b
❓ 자주 묻는 질문
Q1: Gemma 4 로컬 실행하려면 GPU가 꼭 있어야 하나요?
A1: 반드시 GPU가 필요하지는 않습니다. Gemma 4의 경량 모델인 2B 버전은 RAM 8GB 이상의 CPU 환경에서도 실행이 가능합니다. 다만 CPU 모드에서는 토큰 생성 속도가 초당 3~5토큰 수준으로 느려 실사용이 불편할 수 있어요. NVIDIA GPU(VRAM 8GB 이상)가 있다면 초당 20~40토큰 이상 속도가 나오므로, 실용적인 사용을 원한다면 GPU 환경을 강력히 권장합니다. 맥북 M1/M2/M3 사용자라면 Apple Silicon의 통합 메모리 덕분에 CPU 추론임에도 GPU에 준하는 속도가 나오는 경우도 많습니다.
Q2: Gemma 4와 Gemma 3 차이가 뭔가요? 업그레이드할 가치가 있나요?
A2: Gemma 4는 2025년 4월 구글 DeepMind가 공개한 최신 버전으로, 전작 대비 멀티모달(이미지 입력) 지원, 128K 컨텍스트 창 확장, 한국어를 포함한 다국어 성능 대폭 향상이 핵심 차이입니다. 특히 MMLU 벤치마크 기준 Gemma 4 27B 모델이 Gemma 3 27B 대비 약 9.8% 높은 정확도를 기록했습니다. 문서 요약, 코드 생성, 한국어 대화 등 실무 작업에서 체감 차이가 크기 때문에 업그레이드 가치는 충분합니다.
Q3: Ollama 말고 다른 방법으로 Gemma 4 설치할 수 있나요?
A3: 네, 여러 방법이 있습니다. 첫째로 LM Studio를 사용하면 GUI 기반으로 모델을 다운로드하고 실행할 수 있어 CLI가 낯선 분들에게 적합합니다. 둘째로 Hugging Face의 transformers 라이브러리와 Python으로 직접 불러오는 방법이 있으며, 이 경우 커스터마이징 자유도가 가장 높습니다. 셋째로 Google AI Studio에서 API 형태로 사용하는 방법도 있지만, 이건 완전한 로컬 실행은 아닙니다. 초보자라면 Ollama, 개발자라면 transformers 방식을 추천합니다.
Q4: Gemma 4 한국어 성능이 실제로 쓸 만한가요?
A4: 2026년 4월 기준으로 Gemma 4 27B 모델의 한국어 성능은 실용 수준에 도달했다는 평가가 많습니다. 번역, 요약, 간단한 글쓰기 보조 작업에서는 GPT-3.5 수준에 근접한 결과를 보여줍니다. 다만 복잡한 법률·의학 한국어 문서나 미묘한 뉘앙스가 중요한 창작 글쓰기에서는 GPT-4o나 Claude 3.5 대비 한계가 느껴질 수 있습니다. 시스템 프롬프트에 "반드시 한국어로 답변하세요"를 명시하면 일관성이 크게 올라갑니다.
Q5: Gemma 4 모델 파일 크기가 얼마나 되나요? 용량이 걱정됩니다.
A5: 양자화(Quantization) 방식에 따라 크기가 크게 달라집니다. Ollama 기준으로 Gemma 4 2B 모델은 약 1.6GB, 9B 모델은 약 6.5GB, 27B 모델은 Q4 양자화 기준 약 17GB 수준입니다. 풀 정밀도(FP16) 27B 모델은 54GB에 달하지만, 일반 사용자가 쓰는 Q4/Q8 양자화 버전은 절반 이하로 줄어듭니다. SSD 여유 공간을 넉넉히 확보한 뒤 설치하는 것을 권장하며, 처음엔 9B 모델로 테스트 후 필요에 따라 27B로 업그레이드하는 전략이 좋습니다.
📊 핵심 요약 테이블
| 항목 | 내용 | 중요도 |
|---|---|---|
| 필수 설치 도구 | Ollama (공식 사이트에서 다운로드) | ★★★★★ |
| 모델 선택 기준 | VRAM 8GB 미만 → 2B, 8~16GB → 9B, 16GB+ → 27B | ★★★★★ |
| 한국어 최적화 | Modelfile에 한국어 시스템 프롬프트 설정 | ★★★★☆ |
| 권장 양자화 | Q4_K_M (속도-품질 최적 균형) | ★★★★☆ |
| GUI 인터페이스 | Open WebUI (Docker 또는 pip 설치) | ★★★☆☆ |
| 컨텍스트 창 설정 | num_ctx: RAM 16GB는 8192, 32GB는 16384 추천 | ★★★☆☆ |
| 네트워크 접근 설정 | OLLAMA_HOST=0.0.0.0 (외부 접근 필요 시) | ★★★☆☆ |
| 모델 저장 위치 | ~/.ollama/models/ (macOS/Linux), 커스텀 변경 가능 | ★★☆☆☆ |
| 멀티모달 지원 | 9B, 27B 모델만 이미지 입력 가능 | ★★★★☆ |
| Gemma 4 라이선스 | Gemma Terms of Service (상업적 이용 가능, 단 조건 확인 필요) | ★★★★★ |
마무리: 오늘 밤 한 번만 따라해보세요
솔직히 말하면, 로컬 LLM의 진입장벽은 1년 전에 비해 극적으로 낮아졌습니다. Ollama 설치 → ollama pull gemma4:9b → ollama run gemma4:9b. 이 세 줄이면 진짜 끝이에요.
매월 나가는 AI API 비용이 부담스럽거나, 회사 기밀 문서를 외부 서버에 올리기 껄끄럽거나, 그냥 "내 PC에서 돌아가는 AI"를 갖고 싶다면 — Gemma 4 로컬 실행이 그 답입니다.
첫 설치에서 막히는 분들을 위해 이 글에서 삽질 포인트를 최대한 담았지만, 그래도 혹시 "저는 이 오류가 뜨는데요"라는 상황이 생기면 댓글에 오류 메시지를 그대로 복붙해 주세요. 같은 오류를 겪은 분들이 이 글 댓글에서 해결책을 찾을 수 있도록 함께 정리하겠습니다.
다음 글에서는 Gemma 4 + LangChain으로 나만의 RAG 시스템을 로컬에서 구축하는 법을 다룰 예정입니다. "내 문서 기반으로 질문하는 AI"를 완전 오프라인으로 만드는 과정이에요. 기대해 주세요.
2026년 4월 3일 기준으로 작성된 글입니다. Ollama 및 Gemma 4 업데이트에 따라 일부 명령어가 달라질 수 있습니다.
댓글
댓글 쓰기