Reddit요약2026. 06. 15. 09:34

iPhone/iPad에서 GGUF 모델을 벤치마크할 수 있는 iOS 앱을 만들었습니다

요약

llama.cpp와 Metal을 활용하여 iPhone 및 iPad에서 GGUF 모델을 실행하고 벤치마크할 수 있는 iOS 앱 'GenBench'가 출시되었습니다. 사용자는 Hugging Face에서 모델을 직접 다운로드하여 토큰 생성 속도와 메모리 사용량 등을 측정할 수 있습니다.

핵심 포인트

Hugging Face GGUF 모델의 원터치 검색 및 다운로드 지원
tok/s, 첫 토큰 지연 시간, 피크 메모리 등 표준화된 벤치마크 제공
텍스트 및 비전 모델(MiniCPM-V 등) 지원 및 오프라인 채팅 가능
기기 간 성능 비교를 위한 글로벌 리더보드 운영

안녕하세요, 저는 llama.cpp + Metal을 사용하여 iPhone 또는 iPad에서 직접 GGUF 모델을 다운로드하고, 실행하며, 벤치마크할 수 있는 무료 iOS 앱인 GenBench를 개발해 왔습니다.

주요 기능:

Hugging Face에서 GGUF 모델을 한 번의 탭으로 검색 및 다운로드
완전히 오프라인 상태로 모델과 채팅
표준화된 프롬프트로 벤치마크 수행 — tok/s(초당 토큰 수), 첫 번째 토큰 지연 시간(first-token latency), 피크 메모리(peak memory) 측정
전 세계 리더보드에 점수를 제출하여 기기 간 비교
텍스트 및 비전 모델(MiniCPM-V 등) 지원

개발 이유:
사람들이 "X 모델이 iPhone에서 얼마나 빠르게 실행되나요?"라고 묻는 것을 계속 보았지만, 이를 테스트할 쉬운 방법이 없었습니다. 기존 도구들은 CLI 전용이거나 macOS 전용이었습니다. 저는 단순히 다운로드(Download) → 실행(Run)을 탭하면 실제 수치를 얻을 수 있는 무언가를 원했습니다.

[IMG:1]

제가 확인한 일부 결과:

iPhone 16 Pro에서 SmolLM2 1.7B Q4_K_M: ~35 tok/s
iPhone 15 Pro에서 Qwen2.5 3B Q4_K_M: ~20 tok/s
iPad Pro M4에서 Phi-3.5 Mini Q4_K_M: ~45 tok/s
(사용자의 수치는 다를 것입니다 — 그것이 이 앱의 핵심 목적입니다)

App Store 링크: https://apps.apple.com/us/app/genbench/id6775272272
웹사이트: https://genbench.tken.ai

이 앱은 완전히 무료이며, 계정이 필요 없고, 광고도 없습니다. 리더보드 제출은 익명으로 이루어집니다.

이 커뮤니티의 피드백을 받고 싶습니다 — 추천 목록에 어떤 모델을 추가하면 좋을까요? 보고 싶은 벤치마킹 지표가 있나요? 다음으로는 퍼플렉시티(perplexity) 측정을 추가할 계획입니다.

AI 자동 생성 콘텐츠

원문 바로가기

iPhone/iPad에서 GGUF 모델을 벤치마크할 수 있는 iOS 앱을 만들었습니다

요약

핵심 포인트

댓글