b9426: llama : RPC 장치만 존재할 때 iGPU를 건너뛰지 않도록 수정 (#23868)
요약
llama.cpp에서 RPC 장치만 존재할 때 로컬 iGPU를 연산 장치에서 제외하던 버그를 수정했습니다. 이로 인해 Strix Halo와 같이 iGPU가 주요 장치인 시스템에서 모델 로딩이 실패하던 문제가 해결되었습니다.
핵심 포인트
- RPC 서버 추가 시 로컬 iGPU가 제외되던 로직 수정
- Strix Halo 등 통합 메모리 시스템의 모델 로딩 실패 해결
- gpus.empty() 기준으로 iGPU 포함 여부 결정 방식 변경
#23007에서 통합 CUDA/HIP 장치를 iGPU로 재분류한 이후, RPC 서버가 추가될 때마다 model->devices가 비어 있지 않게 됨에 따라 장치 선택 로직이 로컬 iGPU를 제외해 버리는 문제가 발생했습니다. "iGPU"가 주요 연산 장치인 시스템(예: 128 GiB 통합 메모리를 가진 Strix Halo)에서는 이로 인해 모든 텐서(tensor)가 RPC 피어(peer)에만 할당되어 모델 로딩이 실패했습니다.
대신 gpus.empty()를 기준으로 iGPU 포함 여부를 결정하도록 하여, RPC 피어가 로컬 iGPU를 더 이상 억제하지 않도록 수정했습니다.
closes: #23858
AI 자동 생성 콘텐츠
본 콘텐츠는 llama.cpp Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기