
iPhone/iPad에서 GGUF 모델을 벤치마크할 수 있는 iOS 앱을 만들었습니다
요약
llama.cpp와 Metal을 활용하여 iPhone 및 iPad에서 GGUF 모델을 실행하고 벤치마크할 수 있는 iOS 앱 'GenBench'가 출시되었습니다. 사용자는 Hugging Face에서 모델을 직접 다운로드하여 토큰 생성 속도와 메모리 사용량 등을 측정할 수 있습니다.
핵심 포인트
- Hugging Face GGUF 모델의 원터치 검색 및 다운로드 지원
- tok/s, 첫 토큰 지연 시간, 피크 메모리 등 표준화된 벤치마크 제공
- 텍스트 및 비전 모델(MiniCPM-V 등) 지원 및 오프라인 채팅 가능
- 기기 간 성능 비교를 위한 글로벌 리더보드 운영
안녕하세요, 저는 llama.cpp + Metal을 사용하여 iPhone 또는 iPad에서 직접 GGUF 모델을 다운로드하고, 실행하며, 벤치마크할 수 있는 무료 iOS 앱인 GenBench를 개발해 왔습니다.
주요 기능:
- Hugging Face에서 GGUF 모델을 한 번의 탭으로 검색 및 다운로드
- 완전히 오프라인 상태로 모델과 채팅
- 표준화된 프롬프트로 벤치마크 수행 — tok/s(초당 토큰 수), 첫 번째 토큰 지연 시간(first-token latency), 피크 메모리(peak memory) 측정
- 전 세계 리더보드에 점수를 제출하여 기기 간 비교
- 텍스트 및 비전 모델(MiniCPM-V 등) 지원
개발 이유:
사람들이 "X 모델이 iPhone에서 얼마나 빠르게 실행되나요?"라고 묻는 것을 계속 보았지만, 이를 테스트할 쉬운 방법이 없었습니다. 기존 도구들은 CLI 전용이거나 macOS 전용이었습니다. 저는 단순히 다운로드(Download) → 실행(Run)을 탭하면 실제 수치를 얻을 수 있는 무언가를 원했습니다.
[IMG:1]
제가 확인한 일부 결과:
- iPhone 16 Pro에서 SmolLM2 1.7B Q4_K_M: ~35 tok/s
- iPhone 15 Pro에서 Qwen2.5 3B Q4_K_M: ~20 tok/s
- iPad Pro M4에서 Phi-3.5 Mini Q4_K_M: ~45 tok/s
(사용자의 수치는 다를 것입니다 — 그것이 이 앱의 핵심 목적입니다)
App Store 링크: https://apps.apple.com/us/app/genbench/id6775272272
웹사이트: https://genbench.tken.ai
이 앱은 완전히 무료이며, 계정이 필요 없고, 광고도 없습니다. 리더보드 제출은 익명으로 이루어집니다.
이 커뮤니티의 피드백을 받고 싶습니다 — 추천 목록에 어떤 모델을 추가하면 좋을까요? 보고 싶은 벤치마킹 지표가 있나요? 다음으로는 퍼플렉시티(perplexity) 측정을 추가할 계획입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기