본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 06. 18:32

PFlash: RTX 3090에서 128K 프리필 속도 llama.cpp 대비 10배 향상

요약

PFlash는 양자화된 27B 모델의 장문맥 디코드를 위한 혁신적인 추론적 프리필(Inferential Prefill) 기법을 소개합니다. 이 기술은 전체 프롬프트에서 토큰 중요도를 평가하여, 무거운 타겟 모델이 중요한 구간만 집중적으로 처리함으로써 기존 llama.cpp 대비 10배에 달하는 속도 향상을 보여줍니다. C++/CUDA만을 사용하여 구현되었으며, 특히 긴 컨텍스트(예: 128K)에서의 초기 응답 시간(TTFT)을 크게 개선합니다.

핵심 포인트

  • PFlash는 장문맥 디코드를 위해 토큰 중요도를 평가하는 추론적 프리필 기법을 사용합니다.
  • 이 기술은 전체 프롬프트 처리 대신 중요한 구간만 타겟 모델로 처리하여 효율성을 극대화합니다.
  • RTX 3090 환경에서 Qwen3.6-27B 모델의 128K 컨텍스트 프리필 속도를 기존 llama.cpp 대비 약 10배 향상시킵니다.
  • 구현은 C++/CUDA만을 사용하며, Python이나 PyTorch 같은 고수준 라이브러리 의존성을 제거하여 성능과 효율성을 높였습니다.

양자화된 27B 타겟의 장문맥 디코드를 위한 추론적 프리필을 구축했습니다. C++/CUDA만 사용. 소규모 드래프터가 전체 프롬프트에서 토큰 중요도를 평가하고, 무거운 타겟 모델은 중요한 구간만 프리필합니다.

레포: github.com/Luce-Org/lucebox-hub (오픈소스, MIT)

Qwen3.6-27B Q4_K_M, RTX 3090 기준 헤드투헤드: 128K에서 TTFT 24.8초 vs 바닐라 llama.cpp 257초 = 약 10.4배 (64K에서 13.5초 vs 134.95초 = 10.0배). NIAH 검색 정확도 유지. 추론 루프에 Python, Triton, PyTorch 없음.

문제:
Q4_K_M Qwen3.6-27B를 24GB 3090에서 디코드는 빠르지만(DFlash 추론적 디코드로 약 74 tok/s), 프리필은 O(S 제곱)으로 스케일. 131K 토큰 프롬프트에서 바닐라 llama.cpp는 248.4초 — 첫 토큰 전 4.1분 대기.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0