server, webui: reasoning models에서의 생성 계속하기(continue generation) 지원 ( #22727 ) se
요약
본 업데이트는 reasoning models에서 생성(generation)을 지속적으로 수행하는 기능을 지원합니다. 구체적으로, assistant prefill로 인해 발생하던 차단 문제를 해결하고, 파서가 다음 스트림 청크를 정확히 라우팅할 수 있도록 thinking tags를 조정했습니다. WebUI에서는 Continue 버튼을 통해 reasoning guard를 해제하고, 부분적인 reasoning 내용을 유지하여 CoT(Chain of Thought)의 연속성을 보장합니다.
핵심 포인트
- reasoning models에서 생성 중단 없이 지속적인 생성이 가능하도록 개선되었습니다.
- assistant prefill로 인한 차단 문제를 해결하고 thinking tags를 사용하여 스트림 라우팅을 조정했습니다.
- WebUI의 Continue 버튼 기능이 강화되어, 부분적인 reasoning 내용을 유지하며 CoT(Chain of Thought)를 재로드 및 재개할 수 있습니다.
- 현재 범위는 단순한 thinking_start_tag / thinking_end_tag 쌍을 사용하는 템플릿에 한정됩니다.
server, webui: reasoning models에서의 생성 계속하기(continue generation) 지원 ( #22727 ) server, webui : reasoning models에서의 생성 계속하기(continue generation) 지원 ( #22727 ) reasoning models에서 차단(blocking)을 유발하는 assistant prefill을 제거하고, 파서(parser)가 다음 스트림 청크(stream chunks)를 올바르게 라우팅할 수 있도록 prefilled message 주변에 thinking tags를 배치하여 조정합니다. WebUI는 Continue 버튼에서 reasoning guard를 해제하고, prefilled message와 함께 reasoning_content를 전송하며, 중단 시 부분적인 reasoning을 유지하여 CoT(Chain of Thought)가 재로드 및 재개 시에도 유지되도록 합니다. 범위(Scope): 단순한 thinking_start_tag / thinking_end_tag 쌍을 사용하는 템플릿. GPT-OSS와 같은 채널 기반(Channel-based) 템플릿은 common/chat의 템플릿별 prefill API가 마련될 때까지 범위에서 제외됩니다. #21754를 향한 첫 단계입니다. chore: webui 빌드 출력 업데이트 server: 채널 기반 템플릿에서의 reasoning prefill 거부 macOS/iOS: macOS Apple Silicon (arm64) macOS Apple Silicon (arm64, KleidiAI 활성화) macOS Intel (x64) iOS XCFramework Linux: Ubuntu x64 (CPU) Ubuntu arm64 (CPU) Ubuntu s390x (CPU) Ubuntu x64 (Vulkan) Ubuntu arm64 (Vulkan) Ubuntu x64 (ROCm 7.2) Ubuntu x64 (OpenVINO) Ubuntu x64 (SYCL FP32) Ubuntu x64 (SYCL FP16) Android: Android arm64 (CPU) Windows: Windows x64 (CPU) Windows arm64 (CPU) Windows x64 (CUDA 12) - CUDA 12.4 DLLs Windows x64 (CUDA 13) - CUDA 13.1 DLLs Windows x64 (Vulkan) Windows x64 (SYCL) Windows x64 (HIP) openEuler: openEuler x86 (310p) openEuler x86 (910b, ACL Graph) openEuler aarch64 (310p) openEuler aarch64 (910b, ACL Graph)
AI 자동 생성 콘텐츠
본 콘텐츠는 llama.cpp Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기