내 PC에서 실제로 돌아가는 최고 성능 로컬 LLM 찾는 법 — whichllm 정리했습니다
혹시 이런 생각해본 적 있으신가요? "ChatGPT 요금제를 끊고 로컬로 돌려보면 어떨까?" 저도 Ollama를 설치하고 모델을 받아봤는데, 응답 속도가 너무 느리거나 VRAM 부족 오류가 떠서 결국 포기했던 경험이 있습니다.
문제는 어떤 모델이 '내 컴퓨터'에서 제대로 돌아가는지 알기가 너무 어렵다는 겁니다. 공식 벤치마크는 고사양 서버 기준입니다. 유튜브 리뷰어들은 RTX 4090 기준으로 이야기하죠. 16GB 맥북이나 8GB VRAM 게이밍 PC를 쓰는 사람 입장에서는 남 얘기처럼 들립니다.
최근 개발자 커뮤니티에서 화제가 된 whichllm이라는 프로젝트가 있습니다. 이 도구는 "내 하드웨어에서 실제로 돌아가고, 실제로 최고 성능을 내는 LLM이 뭔지"를 알려줍니다. 오늘은 이 트렌드의 배경부터 실전 활용법까지 정리해 드립니다.
💡 왜 지금 로컬 LLM 열풍인가 — 트렌드 배경
2024~2025년 사이 로컬 LLM 생태계는 폭발적으로 성장했습니다. 핵심 변화는 세 가지입니다.
- 모델 경량화: Llama 3, Mistral, Gemma, Qwen 등 오픈소스 진영이 1B~14B 파라미터 범위에서 GPT-3.5급 성능을 내는 모델을 쏟아내기 시작했습니다.
- 양자화 기술 성숙: GGUF, AWQ, GPTQ 같은 양자화 포맷이 안정화되면서 4~8비트로 압축한 모델이 품질 손실 없이 일반 PC에서 구동됩니다.
- 런타임 도구 보급: Ollama, LM Studio, llama.cpp 같은 도구가 보급되면서 터미널 한 줄로 모델을 실행할 수 있게 됐습니다.
여기에 AI API 비용 부담이 커지면서 자급자족 수요가 맞물렸습니다. 특히 코드 자동완성, 문서 요약, 개인 데이터 처리처럼 반복 작업이 많은 개발자·연구자·1인 사업자들이 적극적으로 로컬 AI로 이동하고 있습니다.
하지만 장벽이 있었습니다. "어떤 모델을 써야 하지?"라는 질문에 명확한 답이 없었던 것입니다. Hugging Face 리더보드는 클라우드 GPU 기준이고, 커뮤니티 추천은 제각각입니다. whichllm은 바로 이 공백을 채우기 위해 등장했습니다.
🔍 whichllm이란 무엇인가 — 핵심 기능 분석
whichllm은 사용자의 하드웨어 스펙을 입력하면 실제로 구동 가능한 모델 목록과 예상 성능(토큰/초)을 보여주는 도구입니다. 단순 필터링이 아니라 실측 데이터 기반 추천이라는 점이 다릅니다.
핵심 작동 원리는 다음과 같습니다:
- 하드웨어 프로파일링: GPU VRAM, 시스템 RAM, CPU 코어 수, 메모리 대역폭을 입력합니다.
- 모델 데이터베이스 매칭: 수십~수백 개 모델의 실제 구동 요구사항(양자화 비트별 메모리 사용량, 실측 추론 속도)과 대조합니다.
- 성능 예측: 해당 하드웨어에서 기대할 수 있는 토큰 생성 속도(tokens/sec)를 추정합니다. 대화 응답이 자연스럽게 느껴지려면 최소 10 tokens/sec 이상이 필요한데, 이 기준으로 필터링도 가능합니다.
예를 들어 VRAM 8GB짜리 RTX 3060을 입력하면, Q4_K_M 양자화 기준으로 7B 모델은 충분히 돌아가고, 13B 모델은 일부만 가능하며, 34B 이상은 불가능하다는 식으로 결과가 나옵니다. 막연한 "가능/불가능"이 아니라 속도 예측까지 붙어있어서 실용성이 높습니다.
또한 GPU 없이 CPU만 사용하는 케이스, Apple Silicon M 시리즈처럼 통합 메모리를 쓰는 케이스도 커버합니다. 맥북 M2 16GB라면 어떤 모델이 가장 빠른지, 윈도우 노트북 RAM 32GB에 내장 그래픽만 있다면 어디까지 가능한지를 현실적으로 알 수 있습니다.
✅ 내 하드웨어에서 최적 모델 찾는 구체적 단계
직접 whichllm 방식을 적용해 최적 모델을 찾는 프로세스를 단계별로 정리합니다.
1단계: 내 하드웨어 스펙 확인
가장 중요한 세 가지 숫자를 먼저 파악합니다.
- GPU VRAM (없으면 0으로): GPU-Z, 작업 관리자, 또는
nvidia-smi명령어로 확인 - 시스템 RAM 용량 및 대역폭
- Apple Silicon 여부 (통합 메모리는 GPU/CPU 공유)
2단계: 타깃 성능 기준 설정
용도에 따라 필요한 최소 속도가 다릅니다.
- 대화형 어시스턴트: 최소 10 tokens/sec
- 코드 자동완성(실시간): 30 tokens/sec 이상 권장
- 문서 요약·배치 처리: 속도 무관, 품질 우선
3단계: 모델 카테고리 선택
성능 대역별 대표 모델을 기준으로 후보를 좁힙니다.
- VRAM 4GB 이하 또는 CPU 전용: Qwen2.5-1.5B, Gemma 2B — 속도는 느리지만 기본 Q&A 가능
- VRAM 6~8GB: Llama 3.2 3B, Mistral 7B Q4 — 실용적인 성능의 최소 기준선
- VRAM 10~12GB: Llama 3.1 8B, Qwen2.5-7B — 코딩·문서 작업에 충분한 품질
- VRAM 16GB 이상 또는 통합 메모리 24GB+: Llama 3.1 13B, Deepseek-Coder-V2-Lite — GPT-4급 작업 접근 가능
4단계: 양자화 비트 선택
같은 모델도 양자화 수준에 따라 메모리 요구량과 품질이 달라집니다.
- Q4_K_M: 메모리 효율과 품질의 황금 비율. 대부분 상황에서 첫 번째 선택
- Q5_K_M / Q6_K: VRAM 여유가 있을 때 품질 향상
- Q8_0: 거의 원본 품질이지만 메모리 2배 가까이 필요
5단계: Ollama로 실측 테스트
후보 모델을 실제로 받아서 비교합니다.
ollama run llama3.2로 모델 실행 후 응답 속도 체감ollama run --verbose옵션으로 토큰/초 수치 직접 확인- 동일 프롬프트로 2~3개 모델 A/B 비교 후 최종 선택
📌 실제 사례 — 하드웨어 유형별 추천 조합
whichllm 커뮤니티 데이터와 실측 결과를 바탕으로 대표적인 하드웨어 시나리오별 추천을 정리했습니다.
시나리오 A: 일반 윈도우 노트북 (RAM 16GB, GPU 없음)
Llama 3.2 3B Q4_K_M — 약 5~8 tokens/sec. 느
댓글