커스텀 Xiaomi 12 Pro 24/7 서버에서의 Llama.cpp vs LiteRT 비교 (V2 재설계)
요약
Xiaomi 12 Pro 스마트폰을 활용하여 24/7 로컬 LLM 서버를 구축하는 DIY 프로젝트의 재설계 과정을 다룹니다. 냉각 시스템과 전원 공급 장치를 커스텀 제작하였으며, Llama.cpp를 이용한 Gemma-4 모델의 성능 벤치마크 결과를 공유합니다.
핵심 포인트
- 구리 히트싱크와 팬을 이용한 커스텀 냉각 시스템 구축
- 배터리 BMS에 직접 연결하는 커스텀 PSU 제작
- Llama.cpp 기반 Gemma-4 벤치마크 결과 공유
- 스마트폰 기반 서버 구축의 실용성과 DIY 가치 분석
이전 게시물(24/7 Headless AI Server on Xiaomi 12 Pro (Snapdragon 8 Gen 1 + Ollama/Gemma4))에 대해 조언해주신 모든 분께 감사드립니다. 여러분 덕분에 정말 큰 영감을 받았고, 이 설정을 위해 냉각(Cooling) 및 전원 공급 장치(Power Supply)를 완전히 재설계했습니다.
새로 변경된 사항:
- 냉각 (Cooling): 후면에 팬이 달린 구리 히트싱크(Copper heatsink)를 설치했습니다. 전면에는 화면을 제거하고, 써멀 패드(Thermal pad)를 사용하여 2개의 팬이 달린 알루미늄 플레이트에 기기를 직접 장착했습니다. 이제 냉각 시스템은 40°C에서 작동을 시작하고 35°C에서 종료됩니다.
- 전원 공급 장치 (Power Supply): 완전히 안전한 커스텀 PSU를 제작했습니다. 배터리를 분해하여 PSU를 커패시터(Capacitor)를 통해 배터리의 BMS에 직접 연결했습니다. 2개의 퓨즈(입력/출력), 휴대폰 보호를 위한 4.3V 크로우바 회로(Crowbar circuit), 그리고 PSU 자체를 위한 백업 팬을 추가했습니다(하지만 일주일간 테스트해 본 결과, PSU가 그렇게 뜨거워지지 않아서 거의 필요하지 않았습니다).
- 하우징 (Housing): 커스텀 케이스를 3D 프린팅으로 제작했고, 알루미늄 압출재(Aluminum extrusions)로 스탠드를 만들었으며, 외부 전원 버튼을 배치했습니다.
현재 모습은 다음과 같습니다:
벤치마크 (gemma-4-E4B):
(프롬프트: “Write 2000 words IT essay”)
- Llama.cpp
- 속도 (Speed): 프롬프트(Prompt): 30.6 t/s | 생성(Generation): 5.7 t/s
- CPU 부하가 상당히
높습니다.
GPU의 어려움
LiteRT를 GPU에서 실행하려고 시도했으나, 안타깝게도 Google AI Edge가 제 Snapdragon 8 Gen 1용 APK를 출시하지 않았습니다. Qualcomm 사이트에서 라이브러리 파일을 교체하는 시도도 실패했습니다. llama.cpp의 Vulkan 빌드를 실행해 보기도 했으나 문제에 부딪혔습니다. 실행에 성공하면 업데이트된 벤치마크를 게시하겠습니다.
결론
이것이 가치가 있었는지 누군가 묻는다면: 만약 성능이 좋은 여분의 스마트폰이 있고 멋진 DIY 프로젝트를 원하신다면, 확실히 그렇습니다. 하지만 단순히 LLM 서버가 필요하고 번거로운 과정을 피하고 싶다면, 그냥 미니 PC(Mini PC)를 구매하는 것이 더 낫습니다.
영감을 주신 이 서브레딧(sub) 분들께 다시 한번 감사드립니다. 여러분의 피드백이 없었다면 이렇게 대규모 재설계(rebuild)를 감행하지 않았을 것입니다!
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기