Gemma 4 로컬 설치 가이드 — Ubuntu와 macOS에서 Ollama로 바로 실행하기

2026년 4월 13일
조회수 73
코멘트0

목차

Google DeepMind이 2026년 4월 공개한 Gemma 4는 텍스트·이미지·오디오를 동시에 처리하는 오픈소스 멀티모달 모델 패밀리입니다. E2B(2.3B), E4B(4.5B), 26B MoE, 31B Dense 네 가지 크기로 제공되며, 140개 이상의 언어와 최대 256K 토큰 컨텍스트를 지원합니다. 무엇보다 로컬 머신에서 직접 실행할 수 있어 클라우드 비용 없이 개인 데이터를 안전하게 처리할 수 있다는 점이 가장 큰 장점입니다.

이 글에서는 Ubuntu Linux와 macOS 환경에서 Gemma 4를 설치하고 실행하는 방법을 단계별로 안내합니다. 가장 간편한 Ollama 기반 설치부터, Python과 Hugging Face Transformers를 활용한 프로그래밍 방식까지 함께 다룹니다.

모델 사양과 하드웨어 요구사항

어떤 변형을 선택할지는 사용 가능한 메모리에 달려 있습니다. 아래 표는 각 변형별 파라미터 수, 디스크 용량, 최소 권장 메모리를 정리한 것입니다.

변형파라미터디스크 용량최소 메모리 (4-bit)컨텍스트특징
E2B2.3B~7.2 GB4–5 GB128K텍스트+이미지+오디오, 경량
E4B4.5B~9.6 GB5.5–6 GB128K텍스트+이미지+오디오, 균형
26B-A4B (MoE)25.2B (활성 3.8B)~18 GB16–18 GB256K품질/VRAM 비율 최적
31B Dense30.7B~20 GB17–20 GB256K최고 성능, 대용량 필요

Apple Silicon Mac(M1/M2/M3/M4)은 CPU와 GPU가 통합 메모리를 공유하기 때문에 VRAM 별도 계산 없이 시스템 메모리만 확인하면 됩니다. 예를 들어 24 GB RAM의 MacBook Pro M3라면 26B MoE를 4-bit 양자화로 무리 없이 구동할 수 있습니다. Ubuntu에서 NVIDIA GPU를 쓴다면 nvidia-smi 명령으로 가용 VRAM을 먼저 확인하세요.

Ollama로 설치하기 (Ubuntu & macOS 공통)

Ollama는 모델 다운로드, 양자화 선택, 메모리 관리까지 한 번에 처리해주는 로컬 AI 런타임입니다. Gemma 4를 가장 빠르게 실행하려면 Ollama부터 설치하세요.

1단계 — Ollama 설치

macOS (Homebrew):

brew install ollama

Ubuntu / Debian 계열:

curl -fsSL https://ollama.com/install.sh | sh

설치 후 Ollama 서비스가 백그라운드에서 자동으로 시작됩니다. macOS에서는 메뉴바에 아이콘이 나타나고, Linux에서는 systemd 서비스로 등록됩니다.

2단계 — Gemma 4 모델 다운로드 및 실행

원하는 변형을 골라 ollama run 명령 하나로 다운로드와 실행을 동시에 처리합니다.

# 가벼운 테스트 (노트북에서도 원활)
ollama run gemma4:e2b

# 일상 사용에 권장하는 균형 잡힌 모델
ollama run gemma4:e4b

# 품질/VRAM 비율 최적 — 16 GB 이상 필요
ollama run gemma4:26b

# 최고 성능 — 20 GB 이상 필요
ollama run gemma4:31b

처음 실행하면 모델 가중치를 자동 다운로드하며, 네트워크 속도에 따라 수 분에서 수십 분이 걸릴 수 있습니다. 두 번째 실행부터는 로컬 캐시를 사용하므로 즉시 대화를 시작할 수 있습니다.

3단계 — 설치 확인

# 설치된 모델 목록 확인
ollama list

# 특정 모델 정보 조회
ollama show gemma4:e4b

macOS (Apple Silicon) 최적화 팁

Apple Silicon에서 Ollama를 쓸 때 몇 가지 설정으로 체감 성능을 끌어올릴 수 있습니다.

  • 모델 프리로드: ollama pull gemma4:e4b를 미리 실행해두면 첫 응답 지연이 줄어듭니다.
  • Keep-alive 설정: OLLAMA_KEEP_ALIVE=24h ollama serve로 서비스를 띄우면, 모델을 메모리에 24시간 상주시켜 매번 로딩하는 오버헤드를 제거합니다.
  • 자동 시작: brew services start ollama로 등록하면 부팅 시 자동으로 서비스가 기동됩니다.
  • 메모리 관리: 26B 이상을 돌릴 때는 다른 무거운 앱(Chrome 탭 수십 개 등)을 닫아 가용 메모리를 확보하세요.

Ubuntu에서 GPU 활용하기

NVIDIA GPU가 장착된 Ubuntu 시스템이라면 CUDA 드라이버가 설치되어 있는지 먼저 확인합니다.

# NVIDIA 드라이버 확인
nvidia-smi

# CUDA 미설치 시 (Ubuntu 22.04 이상)
sudo apt update
sudo apt install nvidia-driver-550 -y
sudo reboot

Ollama는 NVIDIA GPU를 자동 감지하여 사용합니다. AMD GPU(ROCm)도 지원하지만, NVIDIA에 비해 호환 범위가 좁으므로 공식 문서를 확인하는 것이 좋습니다. GPU가 없는 환경에서도 CPU만으로 실행할 수 있으며, 속도는 느리지만 E2B 수준이라면 실사용에 크게 무리가 없습니다.

Hugging Face Transformers로 Python에서 사용하기

프로그래밍 방식으로 Gemma 4를 사용하려면 Hugging Face Transformers 라이브러리를 활용합니다. 먼저 필요한 패키지를 설치합니다.

pip install transformers torch accelerate

다음 Python 코드로 모델을 로드하고 텍스트를 생성할 수 있습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "google/gemma-4-e4b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

prompt = "서울에서 가볼 만한 봄 여행지를 추천해줘."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

device_map="auto"를 지정하면 사용 가능한 GPU에 모델 레이어를 자동으로 분산 배치합니다. GPU 메모리가 부족하면 일부 레이어를 CPU로 오프로드합니다.

Ollama API를 Python에서 호출하기

Ollama가 이미 실행 중이라면 REST API를 통해 Python에서 바로 연결할 수 있습니다. OpenAI 호환 인터페이스를 제공하므로 기존 코드를 거의 수정 없이 재사용할 수 있습니다.

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"
)

response = client.chat.completions.create(
    model="gemma4:e4b",
    messages=[
        {"role": "user", "content": "Ubuntu에서 Docker 컨테이너 안에 Gemma 4를 실행하려면?"}
    ],
    temperature=1.0,
    top_p=0.95
)
print(response.choices[0].message.content)

모델 삭제 및 관리

디스크 공간을 회수하거나 다른 변형으로 교체하고 싶을 때는 아래 명령을 사용합니다.

# 특정 모델 삭제
ollama rm gemma4:e4b

# 모델 업데이트 (최신 가중치로 갱신)
ollama pull gemma4:e4b

마무리

Gemma 4는 Ollama 한 줄 설치라는 낮은 진입 장벽 덕분에, 별도의 클라우드 구독 없이도 개인 머신에서 고성능 AI 모델을 바로 활용할 수 있습니다. macOS Apple Silicon 사용자라면 통합 메모리의 이점을 최대한 누릴 수 있고, Ubuntu NVIDIA 환경이라면 GPU 가속으로 대형 모델도 빠르게 돌릴 수 있습니다. E2B부터 시작해서 하드웨어가 허락하는 범위까지 점진적으로 모델 크기를 올려보는 것을 추천합니다.

참조 링크

조회 통계 (최근 30일)
PV 73UV 73
이 글이 도움이 되셨나요? 의견을 들려주세요!
지금까지 0명이 의견을 남겼어요
아직 댓글이 없어요. 첫 댓글을 남겨보세요!