커스텀 Xiaomi 12 Pro 24/7 서버에서의 Llama.cpp vs LiteRT 비교 (V2 재설계)

이전 게시물(24/7 Headless AI Server on Xiaomi 12 Pro (Snapdragon 8 Gen 1 + Ollama/Gemma4))에 대해 조언해주신 모든 분께 감사드립니다. 여러분 덕분에 정말 큰 영감을 받았고, 이 설정을 위해 냉각(Cooling) 및 전원 공급 장치(Power Supply)를 완전히 재설계했습니다.

새로 변경된 사항:

냉각 (Cooling): 후면에 팬이 달린 구리 히트싱크(Copper heatsink)를 설치했습니다. 전면에는 화면을 제거하고, 써멀 패드(Thermal pad)를 사용하여 2개의 팬이 달린 알루미늄 플레이트에 기기를 직접 장착했습니다. 이제 냉각 시스템은 40°C에서 작동을 시작하고 35°C에서 종료됩니다.
전원 공급 장치 (Power Supply): 완전히 안전한 커스텀 PSU를 제작했습니다. 배터리를 분해하여 PSU를 커패시터(Capacitor)를 통해 배터리의 BMS에 직접 연결했습니다. 2개의 퓨즈(입력/출력), 휴대폰 보호를 위한 4.3V 크로우바 회로(Crowbar circuit), 그리고 PSU 자체를 위한 백업 팬을 추가했습니다(하지만 일주일간 테스트해 본 결과, PSU가 그렇게 뜨거워지지 않아서 거의 필요하지 않았습니다).
하우징 (Housing): 커스텀 케이스를 3D 프린팅으로 제작했고, 알루미늄 압출재(Aluminum extrusions)로 스탠드를 만들었으며, 외부 전원 버튼을 배치했습니다.

현재 모습은 다음과 같습니다:

벤치마크 (gemma-4-E4B):
(프롬프트: “Write 2000 words IT essay”)

Llama.cpp

속도 (Speed): 프롬프트(Prompt): 30.6 t/s | 생성(Generation): 5.7 t/s
CPU 부하가 상당히

높습니다.

GPU의 어려움

LiteRT를 GPU에서 실행하려고 시도했으나, 안타깝게도 Google AI Edge가 제 Snapdragon 8 Gen 1용 APK를 출시하지 않았습니다. Qualcomm 사이트에서 라이브러리 파일을 교체하는 시도도 실패했습니다. llama.cpp의 Vulkan 빌드를 실행해 보기도 했으나 문제에 부딪혔습니다. 실행에 성공하면 업데이트된 벤치마크를 게시하겠습니다.

결론

이것이 가치가 있었는지 누군가 묻는다면: 만약 성능이 좋은 여분의 스마트폰이 있고 멋진 DIY 프로젝트를 원하신다면, 확실히 그렇습니다. 하지만 단순히 LLM 서버가 필요하고 번거로운 과정을 피하고 싶다면, 그냥 미니 PC(Mini PC)를 구매하는 것이 더 낫습니다.

영감을 주신 이 서브레딧(sub) 분들께 다시 한번 감사드립니다. 여러분의 피드백이 없었다면 이렇게 대규모 재설계(rebuild)를 감행하지 않았을 것입니다!

Insights

커스텀 Xiaomi 12 Pro 24/7 서버에서의 Llama.cpp vs LiteRT 비교 (V2 재설계)

요약

핵심 포인트

댓글

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

Dover, 2분기 수주 16% 성장 및 열교환기 용량 12개월 내 두 배 확장에 따라 연간 조정 EPS 가이던스 상향

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

Dover, 2분기 수주 16% 성장 및 열교환기 용량 12개월 내 두 배 확장에 따라 연간 조정 EPS 가이던스 상향