llama.cpp헤드라인2026. 05. 30. 14:31

b9426: llama : RPC 장치만 존재할 때 iGPU를 건너뛰지 않도록 수정 (#23868)

요약

llama.cpp에서 RPC 장치만 존재할 때 로컬 iGPU를 연산 장치에서 제외하던 버그를 수정했습니다. 이로 인해 Strix Halo와 같이 iGPU가 주요 장치인 시스템에서 모델 로딩이 실패하던 문제가 해결되었습니다.

핵심 포인트

RPC 서버 추가 시 로컬 iGPU가 제외되던 로직 수정
Strix Halo 등 통합 메모리 시스템의 모델 로딩 실패 해결
gpus.empty() 기준으로 iGPU 포함 여부 결정 방식 변경

#23007에서 통합 CUDA/HIP 장치를 iGPU로 재분류한 이후, RPC 서버가 추가될 때마다 model->devices가 비어 있지 않게 됨에 따라 장치 선택 로직이 로컬 iGPU를 제외해 버리는 문제가 발생했습니다. "iGPU"가 주요 연산 장치인 시스템(예: 128 GiB 통합 메모리를 가진 Strix Halo)에서는 이로 인해 모든 텐서(tensor)가 RPC 피어(peer)에만 할당되어 모델 로딩이 실패했습니다.

대신 gpus.empty()를 기준으로 iGPU 포함 여부를 결정하도록 하여, RPC 피어가 로컬 iGPU를 더 이상 억제하지 않도록 수정했습니다.

closes: #23858

AI 자동 생성 콘텐츠

원문 바로가기

b9426: llama : RPC 장치만 존재할 때 iGPU를 건너뛰지 않도록 수정 (#23868)

요약

핵심 포인트

댓글