LM Studio Headless CLI + Claude Code로 로컬에서 Google Gemma 4 돌리기

AI 모델을 쓸 때마다 청구서가 걱정되신 적 있으신가요? GPT-4o든 Claude든 쓸 때마다 토큰이 쌓이고, 월말에 예상보다 훨씬 많은 API 비용이 나오는 경험 — 개발자라면 한 번쯤 겪어봤을 겁니다.

그런데 지금, 이 구조를 뒤집는 흐름이 조용히 퍼지고 있습니다. LM Studio Headless CLI와 Claude Code를 조합하면, Google이 최근 공개한 Gemma 4를 내 컴퓨터에서 완전 무료로, 그것도 Claude Code의 코딩 보조 인터페이스를 그대로 활용하면서 돌릴 수 있게 됩니다. API 키 없이, 구독 없이, 요금 걱정 없이.

이 흐름을 그냥 지나치면 6개월 뒤 "그때 세팅해뒀어야 했는데"라고 후회할 수 있습니다. 지금 바로 뜯어봅시다.

왜 지금 이 조합인가 — 배경부터 짚어보기

2025년 들어 오픈소스 LLM 생태계가 폭발적으로 성숙했습니다. Meta의 Llama 시리즈, Mistral, 그리고 Google의 Gemma 계열이 연달아 공개되면서, "클라우드 API를 써야만 쓸 만한 AI를 쓸 수 있다"는 전제가 무너지기 시작했습니다.

특히 Google Gemma 4는 이 흐름의 정점에 있습니다. 멀티모달을 지원하고, 추론 성능이 이전 세대 대비 크게 향상됐으며, 로컬 실행에 최적화된 경량 버전도 함께 제공됩니다. 단순한 "공개된 모델" 수준을 넘어, 실제 업무에 쓸 수 있는 품질에 도달했다는 평가가 나오고 있습니다.

여기에 LM Studio가 최근 추가한 Headless CLI 모드가 결정적인 역할을 합니다. 기존 LM Studio는 GUI 앱이었습니다 — 마우스로 모델 다운받고, 버튼 눌러서 서버 시작하는 방식. 그런데 Headless CLI가 추가되면서 이제 터미널 명령어 하나로 모델 서버를 띄우고, 다른 도구와 파이프라인으로 연결할 수 있게 됐습니다.

그리고 Claude Code는 OpenAI 호환 API 엔드포인트를 지원합니다. LM Studio가 로컬에서 OpenAI 호환 서버로 뜨기 때문에, Claude Code가 "나는 로컬 모델을 쓰고 있다"는 걸 알면서도 익숙한 인터페이스 그대로 작동합니다. 이 세 가지가 맞물리면서 완전히 새로운 무료 AI 개발 환경이 완성됩니다.

실제로 어떻게 세팅하나 — 단계별 실행 가이드

이론은 충분합니다. 실제 세팅 흐름을 봅시다. 전제 조건은 VRAM 8GB 이상의 GPU 또는 RAM 16GB 이상의 맥(Apple Silicon 권장)입니다.

1단계 — LM Studio 설치 및 CLI 활성화

LM Studio 공식 사이트에서 최신 버전을 설치합니다. 설치 후 터미널에서 lms 명령어를 사용할 수 있는지 확인하세요. macOS 기준으로는 ~/.lmstudio/bin이 PATH에 추가되어야 합니다. 안 되어 있다면 export PATH="$HOME/.lmstudio/bin:$PATH"를 셸 설정 파일에 추가합니다.

2단계 — Gemma 4 모델 다운로드

CLI로 직접 다운로드할 수 있습니다:

lms get google/gemma-3-4b-it-qat

또는 Gemma 4 최신 버전을 원한다면 LM Studio GUI의 검색창에서 "gemma-4"를 검색해 GGUF 형식의 경량화 버전을 받으면 됩니다. 4B 파라미터 양자화 모델 기준으로 약 3~4GB 용량입니다.

3단계 — Headless 서버 실행

모델이 준비됐다면 서버를 띄웁니다:

lms server start
lms load google/gemma-3-4b-it-qat --gpu max

서버가 뜨면 http://localhost:1234/v1에서 OpenAI 호환 API가 활성화됩니다. 여기가 핵심입니다 — 이 주소가 곧 "나만의 무료 API 엔드포인트"가 됩니다.

4단계 — Claude Code 연결

Claude Code에서 로컬 모델을 바라보도록 설정합니다. 프로젝트 루트에 .claude/settings.json을 만들거나 수정합니다:

{
  "env": {
    "ANTHROPIC_BASE_URL": "http://localhost:1234/v1",
    "ANTHROPIC_API_KEY": "lm-studio"
  },
  "model": "google/gemma-3-4b-it-qat"
}

이후 claude 명령어를 실행하면 Claude Code UI가 뜨지만, 실제로는 로컬 Gemma 4가 응답합니다. API 키 항목에 임의 문자열을 넣는 이유는 LM Studio 서버가 키 형식 자체는 요구하지만 실제 검증은 하지 않기 때문입니다.

이 조합이 실제로 유용한 상황들

단순히 "공짜로 쓸 수 있다"는 것 이상의 가치가 있습니다. 구체적으로 어떤 시나리오에서 빛을 발하는지 보겠습니다.

민감한 코드베이스 작업: 회사 내부 코드, 개인정보가 포함된 데이터를 AI에 넘기기 꺼려지는 상황이 있습니다. 로컬 모델은 네트워크를 타지 않으므로 데이터가 외부로 나가지 않습니다. 보안 요구사항이 높은 금융, 의료, 기업 환경에서 특히 유효합니다.

오프라인 환경: 비행기나 인터넷이 불안정한 환경에서도 AI 코딩 보조가 필요한 경우. 한번 모델을 받아두면 인터넷 없이도 동작합니다.

반복적인 소규모 작업: 테스트 코드 생성, 변수명 제안, 간단한 리팩토링처럼 GPT-4급 성능이 필요 없는 작업들. 4B~12B 규모 로컬 모델로도 충분하고, API 비용을 아낄 수 있습니다.

모델 실험과 비교: Gemma 4 외에도 Llama 3, Qwen 2.5, Mistral 등 다양한 모델을 같은 인터페이스로 갈아끼우며 성능을 비교할 수 있습니다. 어떤 작업에 어떤 모델이 더 잘 맞는지 직접 실험해볼 수 있는 환경이 됩니다.

현실적인 한계 — 이 부분은 꼭 알고 시작하세요

장밋빛 전망만 이야기하는 건 이 코너의 방식이 아닙니다. 실제로 써보면 마주치는 한계들이 있습니다.

성능 격차는 아직 존재합니다. Gemma 4 4B 모델은 Claude Sonnet이나 GPT-4o와 비교하면 복잡한 추론, 긴 컨텍스트 처리, 한국어 뉘앙스 이해에서 차이가 납니다. "쓸 만하다"와 "대체할 수 있다"는 다른 이야기입니다. 12B 이상 모델을 쓰면 격차가 줄어들지만, 그만큼 더 좋은 하드웨어가 필요합니다.

컨텍스트 창 제한. 로컬에서 돌리는 양자화 모델은 대부분 8K~32K 컨텍스트를 지원합니다. 대형 코드베이스를 통째로 넣는 작업에는 부적합할 수 있습니다.

첫 응답 속도. GPU가 없거나 저사양 환경에서는 응답이 느립니다. Apple Silicon M2 기준으로는 4B 모델이 꽤 쾌적하지만, CPU만 쓰는 환경에서는 실용적이지 않을 수 있습니다.

결국 이 설정은 "클라우드 AI를 완전히 대체"하는 게 아니라 "특정 용도에서 비용 없이 쓸 수 있는 보조 도구"로 포지셔닝하는 게 현실적입니다.

앞으로의 흐름 — 이 방향이 중요한 이유

지금 이 세팅이 흥미로운 이유는 단순히 무료라서가 아닙니다. 이것이 가리키는 방향 때문입니다.

오픈소스 모델의 품질 곡선은 가파르게 올라가고 있습니다. 1년 전 Llama 2가 처음 나왔을 때와 지금 Gemma 4가 할 수 있는 것을 비교해보면 격차가 눈에 띄게 줄었습니다. 앞으로 12~18개월 안에 로컬 모델이 현재 클라우드 API 모델의 80% 수준에 도달할 것이라는 전망이 나오는 이유가 여기 있습니다.

동시에 LM Studio 같은 도구들이 "설치하고 실행"까지의 진입 장벽을 계속 낮추고 있습니다. Headless CLI 추가는 단순한 기능 업데이트가 아니라, 로컬 LLM이 파이프라인에 끼어들 수 있는 "자동화 호환성"을 얻었다는 의미입니다.

지금 이 세팅을 해두는 것은 미래를 대비하는 투자입니다. 모델이 더 좋아지면 같은 설정으로 더 좋은 결과를 얻을 수 있고, 클라우드 API 의존도를 낮추는 개인 인프라를 하나씩 갖추게 됩니다.

완벽하지 않아도 됩니다. 지금 당장 Gemma 4를 로컬에서 한번 띄워보는 것, 그게 시작입니다.

소프트웨어에 남은 길은 두 가지뿐 — 지금 당신이 써야 할 도구가 바뀌고 있습니다

3월 27, 2026

자세한 내용 보기

유즈풀레이더