llama: 버퍼가 할당되지 않았을 때 K/V rotation 입력에 대한 가드 추가 ([#25215](https://github.com/ggm

llama: 버퍼가 할당되지 않았을 때 K/V rotation 입력에 대한 가드 추가 (#25215)

llm_graph_input_attn_kv::set_input 및 llm_graph_input_attn_kv_iswa::set_input은 rotation 텐서 포인터가 non-null일 때마다 set_input_k_rot / set_input_v_rot를 호출합니다. 하지만 그래프가 어텐션(attending) 없이 K/V만 저장하는 경우(예: DFlash speculative decoding의 KV-injection 패스), 텐서의 버퍼가 할당되지 않았을(NULL) 수 있습니다. 이 경우 set_input_k_rot는 NULL 버퍼에 대해 ggml_backend_buffer_is_host()를 호출하게 되어 GGML_ASSERT(buffer)와 함께 중단됩니다.

이 두 함수에서 인접한 kq_mask 입력들이 이미 사용하고 있는 것과 동일한 "&& ->buffer" 체크를 통해 네 개의 k_rot/v_rot 입력을 보호합니다. 버퍼가 할당되지 않은 경우 업로드할 데이터가 없으므로, 이를 건너뛰는 것이 올바른 동작입니다.

Fixes #25191

Signed-off-by: liminfei-amd 91481003+liminfei-amd@users.noreply.github.com

macOS/iOS:

macOS Apple Silicon (arm64)
macOS Apple Silicon (arm64, KleidiAI 활성화) 비활성화됨
macOS Intel (x64)
iOS XCFramework

Linux:

Linux:

Android:

Android arm64 (CPU)

Windows:

Windows:

openEuler:

DISABLED
openEuler x86 (310p)
openEuler x86 (910b, ACL Graph)
openEuler aarch64 (310p)
openEuler aarch64 (910b, ACL Graph)**

UI:

Insights

llama: 버퍼가 할당되지 않았을 때 K/V rotation 입력에 대한 가드 추가 ([#25215](https://github.com/ggm

요약

핵심 포인트

댓글

Max (5x)로 Fable 5를 극한으로 활용하는 해외 SaaS 기업 CTO의 놀라운 이야기

Fable5 종량제 전환으로 GPT 5.6에 유입될 가능성

복잡한 코딩 프로젝트를 AI 에이전트를 위한 병렬 실행 가능한 작업 배치로 분해

Google, 최신 AI 모델 「Gemini 3.5 Flash」를 개발 도구 「Google AI Studio」 무료 범위에 추가

Max (5x)로 Fable 5를 극한으로 활용하는 해외 SaaS 기업 CTO의 놀라운 이야기

Fable5 종량제 전환으로 GPT 5.6에 유입될 가능성

복잡한 코딩 프로젝트를 AI 에이전트를 위한 병렬 실행 가능한 작업 배치로 분해

Google, 최신 AI 모델 「Gemini 3.5 Flash」를 개발 도구 「Google AI Studio」 무료 범위에 추가