Dev.to헤드라인2026. 06. 08. 04:01

inferbench: 하나의 데스크톱 앱으로 로컬 LLM 엔진을 다운로드, 실행 및 벤치마크하세요

요약

inferbench는 로컬 LLM의 다운로드, 실행, 벤치마크 과정을 하나로 통합한 데스크톱 애플리케이션입니다. 실제 하드웨어 성능(tok/s)을 측정하며, MCP를 통해 모델을 클라이언트에 노출할 수 있는 기능을 제공합니다.

핵심 포인트

모델 다운로드부터 엔진 실행까지 단일 앱으로 통합
시뮬레이션이 아닌 실제 하드웨어 기반의 정확한 벤치마크 제공
텍스트 및 이미지 모델 지원 및 MCP를 통한 서빙 기능
React, Electron, Python 기반의 로컬 우선 아키텍처

만약 LLM을 로컬에서 실행한다면, 아마도 대여섯 개의 도구를 번갈아 가며 사용해 보셨을 것입니다. 모델을 다운로드하기 위한 도구 하나, 엔진을 실행하기 위한 또 다른 도구 하나, 그리고 여러분의 GPU에서 실제로 초당 몇 개의 토큰(tokens/sec)이 나오는지 확인하기 위한 세 번째 도구까지 말이죠. inferbench는 이 모든 과정을 단 하나의 데스크톱 앱으로 통합합니다.

주요 기능

다운로드 (Download): 한 곳에서 모델과 추론 엔진(llama.cpp 및 관련 도구들)을 다운로드합니다.
실행 (Launch): 터미널 명령어를 복잡하게 뒤질 필요 없이, 적절한 플래그(flags)를 사용하여 모델에 대한 엔진을 실행합니다.
벤치마크 (Benchmark): 마케팅용 수치가 아닌, 여러분의 하드웨어에서 나오는 실제 처리량(throughput) — 실제 tok/s를 측정합니다. 시뮬레이션된 데이터는 없습니다. 엔진을 사용할 수 없다면 추측하는 대신 에러를 표시합니다.
서빙 및 MCP를 통한 노출 (Serve & expose over MCP): 모델을 상주시키고 stdio 또는 HTTP를 통해 모든 MCP 클라이언트에 노출합니다. 텍스트 및 이미지 모델(sd.cpp를 통한 Stable Diffusion) 모두 지원합니다.

로컬 우선(local-first)인 이유

클라우드도, API 키도, 토큰당 과금도 없으며, 데이터가 기기를 떠나지도 않습니다. 여러분의 GPU가 정확히 무엇을 할 수 있는지 확인할 수 있습니다. 이는 실제 워크로드에 사용할 모델을 선택할 때 정직한 수치가 필요할 경우 매우 유용합니다.

최근 진행한 스모크 테스트(smoke test)에서, Qwen2.5-7B 모델은 inferbench를 통해 RTX 3070에서 약 75 tok/s의 엔드 투 엔드(end-to-end) 성능을 기록했습니다.

스택 (Stack)

프론트엔드는 React + Vite + Electron을 사용하고, 백엔드는 Python 3.11 + FastAPI + SQLModel을 사용하며, PyInstaller 사이드카(sidecar)로 패키징되었습니다. Hugging Face를 통해 검증된 교차 확인된 모델 카탈로그(124개 모델)를 제공합니다.

사용해 보기

v0.1.1 버전이 출시되었습니다. 피드백과 이슈 제보를 환영합니다. 특히 제가 가지고 있지 않은 하드웨어에서의 벤치마크 수치를 공유해 주시면 감사하겠습니다. 🖥️

AI 자동 생성 콘텐츠

원문 바로가기