WhichLLM 입문 — 자신의 GPU로 CLI에서 가장 빠른 로컬 LLM을 선택하는 핸즈온 - Insights | Molayo

WhichLLM은 「자신의 하드웨어에서 실제로 고성능인 로컬 LLM은 무엇인가」를 명령어 한 번으로 알려주는 OSS CLI이다. 파라미터 수가 아니라, 벤치마크 품질 · VRAM 적합성 · 추정 속도를 통합한 스코어로 추천한다1.

pip install whichllm

(또는 uvx whichllm@latest)

로 도입할 수 있으며, whichllm --gpu "RTX 4090"와 같이 GPU 명을 전달하는 것만으로 「탑재 가능한 모델 × 속도 × 품질」의 랭킹이 나온다1. -
구매 전 시뮬레이션 (--gpu) · 업그레이드 비교 (upgrade) · 그대로 실행 (run)까지 갖춰져 있어, 로컬 LLM 환경의 「모델 선택으로 소모되는」 문제를 기계적으로 해결할 수 있다. Python 3.11+ / MIT 라이선스1.

로컬 LLM을 구동할 때, 처음에 반드시 부딪히는 것이 「결국, 내 GPU에서 가장 똑똑하고 빠른 모델은 무엇인가?」라는 질문이다. WhichLLM은 이 질문에 대해, 매번 수작업으로 VRAM 계산과 리더보드(Leaderboard) 대조를 하는 대신, 명령어 하나로 답을 반환하는 것을 목표로 한 도구다2.

WhichLLM은 Andyyyy64가 개발하는 OSS CLI로, 2026년 6월에 공개되어 화제가 되었다2. 컨셉은 명쾌하며, 「파라미터 수의 크기」가 아니라 「자신의 하드웨어에서의 실효 성능」으로 로컬 LLM을 추천하는 것이다1.

로컬 LLM 선택은 본래 다음 세 가지를 동시에 만족해야 한다.

VRAM에 탑재되는가 (양자화(Quantization) 레벨을 포함하여 실제로 메모리에 들어가는가)
실용적인 속도가 나오는가 (토큰/초)
태스크에 대해 똑똑한가 (벤치마크 품질)

이 세 가지를 수동으로 대조하는 것은 매우 고된 일이다. WhichLLM은 하드웨어를 자동 검출하고, 여러 리더보드를 통합한 스코어와 VRAM 적합성 · 속도 추정을 결합하여, **「당신의 환경에서 실제로 좋은 모델」**을 순위 매겨 반환한다1.

Python 3.11 이상이 전제 조건이다. 설치 방법은 여러 가지가 준비되어 있다1.

# pip
pip install whichllm
# uv (단발 실행 · 설치 불필요)
...

검증이나 CI에組み込む(組み込む) 것이라면, 환경을 더럽히지 않는 uvx whichllm@latest가 간편하다.

먼저, WhichLLM이 자신의 머신을 어떻게 인식하고 있는지 확인한다.

whichllm hardware

WhichLLM은 NVIDIA · AMD · Apple Silicon의 GPU와 CPU 코어 수 · RAM을 자동 검출한다. 검출에는 NVIDIA를 위해 nvidia-ml-py, AMD를 위해 ROCm 계열, Apple Silicon을 위해 Metal을 사용하며, 전용 GPU가 없는 환경에서는 CPU-only로 폴백(Fallback)한다1. GPU가 인식되지 않는 경우에는 다음의 --cpu-only로 CPU 전제의 추천으로 전환할 수 있다.

가장 기본적인 사용법은 GPU 명을 전달하여 랭킹을 얻는 것이다.

whichllm --gpu "RTX 4090"

출력은 「순위 · 모델 · 파라미터 규모 · 양자화 · 스코어 · 추정 속도」를 나열한 랭킹이 된다 (이미지).

#1 <model-id> 27.8B Q5_K_M score 92.8 27 t/s
#2 <model-id> 32.0B Q4_K_M score 83.0 31 t/s
#3 <model-id> 30.0B Q5_K_M score 82.7 102 t/s

score는 0~100의 벤치마크 품질이며, 오른쪽 끝은 추정 토큰/초이다. 스코어가 높아도 속도가 나오지 않으면 실용적이지 않기 때문에, 두 가지를 나란히 볼 수 있는 것이 포인트다. 구체적인 순위 · 수치는 모델의 업데이트나 리더보드의 변동에 따라 바뀌므로, --refresh로 최신화할 수 있다.

주요 옵션은 다음과 같다1.

옵션	역할
`--gpu "NAME"`	구매 전 GPU를 시뮬레이션하여 추천
`--cpu-only`	CPU로만 구동하는 것을 전제로 추천
`--top N`	표시 개수 (기본값 3)
`--quant Q`	양자화 (Quantization) 레벨로 필터링
`--min-speed N`	최소 속도 (t/s) 임계값
`--profile P`	태스크별 필터 (general/coding/vision/math)
`--context-length N`	컨텍스트 길이 (Context Length)를 지정하여 VRAM 계산에 반영
`--json`	스크립트 연동을 위한 JSON 출력
`--refresh`	캐시를 무시하고 최신 데이터로 재계산

예를 들어 "코딩 용도로, 20 t/s 이상 나오는 모델 상위 5개"라면 다음과 같이 작성할 수 있다.

whichllm --gpu "RTX 4090" --profile coding --min-speed 20 --top 5

WhichLLM이 편리한 점은, 수중에 없는 GPU라도 --gpu를 통해 가상으로 평가할 수 있다는 점이다. 이를 통해 "이 GPU를 사면 무엇이 돌아갈 것인가"를 구매 전에 확인할 수 있다.

나아가 upgrade 서브 커맨드는 여러 GPU를 나열하여 "업그레이드 시 무엇이 변하는가"를 비교할 수 있다1.

whichllm upgrade "RTX 4090" "RTX 5090" "H100"

특정 모델을 구동하는 데 필요한 구성을 역산하는 plan, 추천된 모델을 그대로 실행하는 run, 실행용 코드 조각을 출력하는 snippet도 준비되어 있다1.

whichllm plan "llama 3 70b" # 이 모델을 구동하려면 무엇이 필요한가
whichllm run "qwen 2.5 1.5b gguf" # 추천·취득하여 실행
whichllm snippet "qwen 7b" # 실행용 스니펫(Snippet)을 출력

"로컬 LLM 추천 도구"는 수없이 많지만, WhichLLM이 깊이 있게 다루는 지점은 점수의 출처와 신뢰도를 명시하고 있다는 점이다1.

점수는 LiveBench, Artificial Analysis, Aider, 멀티모달/비전 평가, Chatbot Arena ELO, Open LLM Leaderboard 등 여러 소스를 통합하고, 여기에 VRAM 적합성, 속도 추정, 양자화 페널티, 소스 신뢰도 보정을 적용하여 산출한다1.

더불어, 벤치마크의 근거 확인 정도를 에비던스(Evidence) 신뢰도 계층으로 취급한다.

계층	의미
`direct`	모델 ID가 완전 일치 (가장 신뢰할 수 있음)
`variant`	접미사(Suffix)를 제외한 일치
`base_model`	카드(Card)의 베이스 모델 정보로부터 추정
`line_interp`	동일 계통 모델로부터의 내삽 (Interpolation)
`self_reported`	업로더의 자기 신고 (크게 감점)

--evidence strict를 추가하면 자기 신고와 같은 약한 근거를 배제하고 엄격하게 평가할 수 있다. 또한 "오래된 리더보드는 계통에 따라 강등시킨다"는 방식을 통해, 구세대 모델이 최신 세대를 부당하게 앞지르지 않도록 하고 있다1. 추천 수치를 무조건 믿게 만드는 것이 아니라, 근거의 강도와 함께 제시하는 설계 사상이다.

실행 백엔드는 양자화 형식에 따라 전환된다1.

GGUF: `llama-cpp-python`을 경유 (경량·고속)

AWQ / GPTQ: `transformers` + `autoawq` / `auto-gptq`

FP16 / BF16: transformers

단, Apple Silicon과 CPU-only는 안정성을 위해 GGUF로 한정되며, AWQ / GPTQ는 Linux + NVIDIA 환경에서 이용할 수 있다1. 자신의 환경에서 무엇을 선택할 수 있는지도 이러한 제약을 고려하여 추천에 반영된다.

적합한 경우	신중히 검토할 경우
로컬 LLM을 VRAM과 속도 제약 내에서 최적화하고 싶다	클라우드 API 중심으로 운용하고 있다
GPU 구매·증설의 비용 대비 효과를 사전에 알고 싶다	사용하는 모델이 이미 고정되어 있다
`--json`으로 자동화하거나 사내 도구에 포함하고 싶다	GUI로 모든 것을 끝내고 싶다

WhichLLM은 "로컬에서 똑똑하고 빠른 모델을 근거와 함께 기계적으로 선택한다"는 니즈에 강력하게 부합합니다. 반대로, 이미 사용할 모델이 결정되어 있다면 활용할 기회는 적습니다.

WhichLLM은
**자신의 하드웨어에서의 실효 성능 (Effective Performance)**을 기준으로 로컬 LLM을 추천하는 OSS CLI (Andyyyy64/whichllm

・Python 3.11+ / MIT)입니다.

pip install whichllm

→ whichllm --gpu "RTX 4090"

를 실행하면, VRAM 적합성 × 속도 × 벤치마크 품질을 통합한 랭킹이 출력됩니다. upgrade

로 구매 전 비교를 수행하고, run

으로 즉시 실행까지 가능합니다. - 스코어는 여러 리더보드 (Leaderboard)를 통합하며,
**에비던스 신뢰도 계층 (Evidence Reliability Hierarchy)**과 오래된 데이터의 강등을 통해 "근거의 강도를 포함하여" 제시합니다.

로컬 LLM 환경을 갖추고 있다면, 먼저 whichllm hardware

로 자신의 머신을 인식시키고, --gpu

없이 현재 환경에 최적인 모델을 1개 출력해 보면, 현재 사양의 "천장 (Ceiling)"을 한눈에 파악할 수 있을 것입니다.

Andyyyy64/whichllm (GitHub 리포지토리 · README). 설치 방법 · CLI 서브 커맨드 · 옵션 · 하드웨어 탐지 · 스코어링과 에비던스 계층 · 대응 백엔드 · MIT 라이선스의 출처. https://github.com/Andyyyy64/whichllm ↩ ↩

2↩3↩4↩5↩6↩7↩8↩9↩10↩11↩12↩13↩14↩15 -
"WhichLLM: A New Tool for Identifying Optimal Local Large Language Models Based on Real-Time Hardware Benchmarks" (AIToolly · 2026-06-11). 2026년 6월 공개 · 컨셉의 출처. https://aitoolly.com/ai-news/article/2026-06-11-whichllm-a-new-tool-for-identifying-optimal-local-large-language-models-based-on-real-time-hardware ↩ ↩

WhichLLM 입문 — 자신의 GPU로 CLI에서 가장 빠른 로컬 LLM을 선택하는 핸즈온

요약

핵심 포인트

WhichLLM은 「자신의 하드웨어에서 실제로 고성능인 로컬 LLM은 무엇인가」를 명령어 한 번으로 알려주는 OSS CLI이다. 파라미터 수가 아니라, 벤치마크 품질 · VRAM 적합성 · 추정 속도를 통합한 스코어로 추천한다1.

GGUF: `llama-cpp-python`을 경유 (경량·고속)

AWQ / GPTQ: `transformers` + `autoawq` / `auto-gptq`

댓글

WhichLLM 입문 — 자신의 GPU로 CLI에서 가장 빠른 로컬 LLM을 선택하는 핸즈온

요약

핵심 포인트

WhichLLM은 「자신의 하드웨어에서 실제로 고성능인 로컬 LLM은 무엇인가」를 명령어 한 번으로 알려주는 OSS CLI이다. 파라미터 수가 아니라, 벤치마크 품질 · VRAM 적합성 · 추정 속도를 통합한 스코어로 추천한다1.

GGUF: llama-cpp-python을 경유 (경량·고속)

AWQ / GPTQ: transformers + autoawq / auto-gptq

댓글

GGUF: `llama-cpp-python`을 경유 (경량·고속)

AWQ / GPTQ: `transformers` + `autoawq` / `auto-gptq`