llama.cpp헤드라인2026. 06. 19. 12:07

server: 스트리밍 엔드포인트에 "X-Accel-Buffering": "no" 헤더 추가 ([#24774](https://github.com

요약

llama.cpp의 서버 엔드포인트에 'X-Accel-Buffering: no' 헤더를 추가하여 Nginx 리버스 프록시의 응답 버퍼링 문제를 해결했습니다. 이를 통해 스트리밍 응답이 끊기지 않고 원활하게 전달되도록 개선되었습니다.

server: 스트리밍 엔드포인트에 "X-Accel-Buffering": "no" 헤더 추가 (#24774)

이 헤더는 Nginx(리버스 프록시로서)가 응답을 버퍼링(buffering)하지 않도록 지시합니다. (스트리밍 엔드포인트에만 영향을 미침)
이 헤더가 없으면, Nginx는 특정 애플리케이션(특히 Pi coding harness)에서 스트리밍을 끊기게 만듭니다.

macOS/iOS:

Linux:

Android:

Windows:

openEuler:

UI:

AI 자동 생성 콘텐츠