Dev.to헤드라인2026. 04. 27. 23:04

CPU 에서 DeepSeek V3.2 GGUF 실행 시 누락된 'think' 태그 오류 수정하기

요약

llama.cpp와 Open WebUI를 사용하여 CPU 환경에서 DeepSeek V3.2 GGUF 모델을 실행할 때, 추론 출력의 시작 태그 누락 오류가 발생했습니다. 이는 특정 GGUF 샤드에 대한 내부 채팅 템플릿이 자동으로 로드되지 않기 때문입니다. 이 문제를 해결하기 위해서는 llama-server를 시작할 때 공식 Jinja chat 템플릿 파일을 명시적으로 지정해주어야 하며, 이를 통해 Open WebUI에서 추론 블록을 올바르게 포맷팅하고 표시할 수 있습니다.

핵심 포인트

CPU 환경에서 DeepSeek V3.2 GGUF 모델 사용 시 시작 태그 누락 오류가 발생할 수 있다.
근본 원인은 특정 GGUF 샤드에 대한 내부 채팅 템플릿의 자동 로딩 실패이다.
해결책은 llama-server 실행 시 `--chat-template-file` 플래그를 사용하여 공식 Jinja chat 템플릿을 명시적으로 지정하는 것이다.
이 수정 사항을 적용하면 Open WebUI가 추론 블록을 올바르게 포맷팅하고, 시작 태그를 보존할 수 있다.

최근, 저는 llama.cpp 와 Open WebUI 를 사용하여 CPU 전용 환경 (32 코어, 768GB RAM) 에 새로운 DeepSeek V3.2 GGUF (Unsharded) 을 배포했습니다. 모든 것이 원활하게 진행되었으나, 모델의 추론 출력에서 시작 태그가 누락된 것을 발견했습니다. 이로 인해 Open WebUI 가 thought 블록을 축소할 수 없었고, UI 는 추론을 포맷되지 않은 평문으로 렌더링했습니다. llama.cpp 소스 코드와 커뮤니티 토론을 조사한 결과, 해당 특정 GGUF shard 에 대해 내부 chat template 이 자동으로 로드되지 않는 것이 근본 원인임을 알게 되었습니다. 해결책은 간단하지만 기본 시작 플래그에서는 즉시 명확하지 않았습니다.

해결 방법: 공식 Jinja chat 템플릿을 명시적으로 llama-server 에 지정합니다.
--chat-template-file models/templates/deepseek-ai-DeepSeek-V3.2.jinja

저는 최신 master 브랜치에서 llama.cpp 를 다시 빌드하고 시작 명령어를 업데이트한 후, 문제가 사라졌습니다. 이제 시작 태그가 보존되며 Open WebUI 가 추론 블록을 올바르게 축소합니다. CPU 에서 로컬로 DeepSeek V3.2 를 실행 중이고 동일한 오류를 겪고 있다면, 전체 분석과 작동하는 명령어는 다음과 같습니다:

🔗 https://www.hiddenobelisk.com/deepseek-v3-2-on-cpu-fixing-the-missing-opening-tag-glitch/

이 정보가 디버깅 시간을 절약해 드리기를 바랍니다! 🛠️

AI 자동 생성 콘텐츠

원문 바로가기

CPU 에서 DeepSeek V3.2 GGUF 실행 시 누락된 'think' 태그 오류 수정하기

요약

핵심 포인트

댓글