본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 27. 23:04

로컬 모델 구동 가능 여부와 토큰/초(tok/s) 속도를 예측하는 오프라인 단일 파일 GPU 빌드 선택기 제작

요약

사용자가 선택한 GPU 사양에 따라 로컬 LLM의 구동 가능 여부와 예상 토큰 생성 속도(tok/s)를 예측해 주는 단일 HTML 파일 기반의 오프라인 도구입니다. 실제 RTX 3090 측정 데이터를 바탕으로 MoE 모델의 활성 파라미터를 고려한 정밀한 디코딩 속도 보정 기능을 제공합니다.

핵심 포인트

  • 백엔드 없이 단일 HTML과 JSON 파일로 작동하는 독립형 도구
  • VRAM 적합성 및 메모리 대역폭 기반의 디코딩/프리필 속도 예측
  • MoE 모델의 활성 파라미터를 반영한 정밀한 성능 보정
  • GitHub Actions를 활용한 부품 가격의 주간 자동 업데이트

요약(TLDR): 백엔드가 없는 단일 HTML 파일입니다. 부품을 선택하면 실제 측정된 3090 수치에 맞춰 보정된 모델 적합 여부와 디코딩(decode) 속도를 알려줍니다.

저는 계속해서 3090 시스템 사양을 구성하고 있는데, 영원한 질문은 결코 "비용이 얼마인가"가 아닙니다. 그건 PCPartPicker가 해줍니다. 질문은 "이 장치가 내가 원하는 모델을 실제로 실행할 수 있는가, 그리고 얼마나 빠른가"입니다. 그래서 그 질문에 답할 수 있는 선택기(picker)를 만들었습니다.

이것은 단일 독립형 HTML 페이지입니다. 빌드 단계, 프레임워크, 계정, 추적 기능이 없습니다. file:// 경로에서 바로 열립니다. 전체 시스템은 하나의 catalog.json 파일을 기반으로 작동하는 단순한 렌더러(renderer)입니다.

주요 기능:

  • 성능 추정기(Capability estimator) — 모델 클래스와 양자화(quant)를 선택하면 상주 크기(resident size), 적합 여부(VRAM 적합 / RAM으로 스필(spills) / 적합하지 않음), 예상 디코딩(decode) 및 프리필(prefill) 속도, 그리고 성능 점수를 제공합니다. 디코딩은 메모리 대역폭 제한(memory-bandwidth-bound) 모델로 계산되며, 제가 실제로 3090에서 측정한 수치로 보정되었습니다.
  • 가격은 단순한 숫자가 아닌 기록입니다 — 모든 줄에는 출처가 표시됩니다: 출처 확인됨(녹색) / 추정치(황색) / 오래된 정보(적색)로 표시되어, 숫자가 조용히 틀리는 일이 없도록 합니다. 실시간 세금 + 배송비 + 예산 내/초과 계산 기능도 포함되어 있습니다.
  • 제품 URL 붙여넣기 → 가격을 가져옵니다 (CORS 프록시를 통해 수행되며, 읽을 수 없는 경우 읽을 수 없다고 명시합니다. 절대 허위 정보를 만들지 않습니다).
  • GitHub Action을 통한 변동 가격의 주간 자동 새로고침. 어디에도 백엔드는 없습니다.

디코딩 보정(decode calibration)에 대하여 — 첫 번째 시도에서 MoE(Mixture of Experts)를 잘못 계산했습니다. 전체 파라미터(params)를 기준으로 추정했기 때문에, 제 120B-A12B 시스템이 약 13 t/s로 표시되었습니다. 하지만 모델이 VRAM에 상주할 때 디코딩은 활성 파라미터(A12B)만 이동하므로 실제로는 약 67 t/s입니다. 이를 활성 파라미터를 추적하도록 수정하고 실제 수치와 대조했습니다. 단일 3090 기준 보정값: dense 27B ≈ 40, 35B-A3B ≈ 87, 70B ≈ 18 t/s; 4×3090 상주 시 120B-A12B MoE ≈ 67 t/s.

포함된 참조 빌드: 2,200달러 규모의 단일 3090 입문용 빌드, 제가 실제로 사용하는 4×3090 96GB 워크스테이션, 25,000달러 미만의 192GB 8×3090 서버, 그리고 4× RTX PRO 6000 384GB 시스템(약 43,000달러 — 도구가 기계를 그려내는데, 이 모델은 말 그대로 불타오르는 모습으로 렌더링됩니다).

MIT 라이선스, GitHub Pages에서 실행 가능: https://nhclimber87.github.io/gpu-build-picker/
저장소 (Repo): https://github.com/NHClimber87/gpu-build-picker
혹시 다른 수치를 측정하신 분이 있다면, 모델 프리셋 (model presets)을 추가하거나 저의 대역폭 (bandwidth) 가정이 틀렸을 경우 수정해 주시면 감사하겠습니다.
제출자: /u/Important_Quote_1180
[링크] [댓글]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0