server + ui: 1초마다 silent SSE 스트림에 ping을 보내고 3초 후에만 연결을 끊어, 느린 prefill (prefill)
요약
llama.cpp의 서버 및 UI에서 느린 prefill 과정 중 연결이 끊기지 않도록 SSE(Server-Sent Events) 핑 메커니즘을 개선했습니다. 1초마다 핑을 보내고 3초 후 연결을 유지하도록 설정하여 안정적인 스트리밍을 지원합니다.
핵심 포인트
- SSE 핑 주기를 요청 본문 필드로 이동하여 유연성 확보
- 느린 prefill 단계에서도 연결 유지를 위한 3초 타임아웃 관리
- 요청 스키마를 통한 sse_ping_interval의 타입 및 범위 검증 자동화
- macOS, iOS, Linux 등 다양한 플랫폼용 바이너리 업데이트
server + ui: 1초마다 silent SSE 스트림에 ping을 보내고 3초 후에만 연결을 끊어, 느린 prefill (prefill) 과정에서도 정상적인 연결이 끊기지 않도록 개선 (#25241)
-
server + ui: 1초마다 silent SSE 스트림에 ping을 보내고 3초 후에만 연결을 끊어, 느린 prefill (prefill) 과정에서도 정상적인 연결이 끊기지 않도록 개선
-
server + ui: sse_ping_interval이 요청 본문(request body)의 필드로 변경됨
ngxson의 리뷰 사항 반영: 전역 기본값(global default)이 30으로 복구되어 API 클라이언트는 동작 변화를 느끼지 못하며, WebUI는 3초의 가시성-차단(visibility-kick) 계약을 관리하고 필요한 주기를 선언하므로 요청 본문에 sse_ping_interval: 1을 전송합니다. 양수 값은 기존의 > 0 게이트를 유지하며, -1은 기존의 비활성화(disabled) 의미론을 유지합니다.
- server: sse_ping_interval을 요청 스키마(request schema)로 이동
ngxson의 리뷰 사항 반영: 해당 필드는 이제 task_params에 바인딩된 하드 리밋(-1, INT32_MAX)을 가진 타입화된 field_num이며, 다른 상속된 파라미터들과 함께 CLI 기본값으로부터 시드(seeded)됩니다. 원시 json_value 읽기와 중복된 주석은 제거되었으며, 스키마 평가(schema evaluation)를 통해 타입 및 범위 검증이 자동으로 이루어집니다.
macOS/iOS:
- macOS Apple Silicon (arm64)
- macOS Apple Silicon (arm64, KleidiAI 활성화) 비활성화됨
- macOS Intel (x64)
- iOS XCFramework
Linux:
<strong>Linux:</strong>
- Ubuntu x64 (CPU)
- Ubuntu arm64 (CPU)
- Ubuntu s390x (CPU)
- Ubuntu x64 (Vulkan)
- Ubuntu arm64 (Vulkan)
- Ubuntu x64 (ROCm 7.2)
- Ubuntu x64 (OpenVINO)
- Ubuntu x64 (SYCL FP32)
- Ubuntu x64 (SYCL FP16)
<strong>Android:</strong>
<strong>Windows:</strong>
<strong class="text-lg">Windows:</strong>
- Windows x64 (CPU)
- Windows arm64 (CPU)
- Windows arm64 (OpenCL Adreno)
- Windows x64 (CUDA 12) - CUDA 12.4 DLLs
- Windows x64 (CUDA 13) - CUDA 13.3 DLLs
- Windows x64 (Vulkan)
- Windows x64 (OpenVINO)
- Windows x64 (SYCL)
- Windows x64 (HIP)**
openEuler:
- DISABLED
- openEuler x86 (310p)
- openEuler x86 (910b, ACL Graph)
- openEuler aarch64 (310p)
- openEuler aarch64 (910b, ACL Graph)**
UI:
AI 자동 생성 콘텐츠
본 콘텐츠는 llama.cpp Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기