r/StableDiffusion분석2026. 05. 09. 08:31

Flux.2-Klein pipeline for real-time webcam stream processing in 30 FPS

요약

본 기술 기사는 Flux.2-Klein-4B 모델을 기반으로 구축된 파이프라인을 소개하며, 단일 RTX5090 GPU에서 낮은 지연 시간(약 0.2초)으로 실시간 웹캠 비디오 스트림 처리를 가능하게 합니다. 이 시스템은 커스텀 KV-cache를 활용하여 움직이는 영역의 토큰만 재계산하고, RIFE 모델을 이용한 프레임 보간(Interpolation) 기능을 통해 최대 4배까지 FPS를 높일 수 있습니다. 결과적으로 정적 장면에서는 최대 50 FPS, 역동적인 장면에서도 높은 처리 속도를 유지합니다.

핵심 포인트

Flux.2-Klein-4B 모델을 활용하여 실시간 웹캠 비디오 스트림 처리를 구현했습니다.
커스텀 KV-cache를 사용하여 계산 부하를 최적화하고, 움직이는 영역의 토큰만 재계산합니다.
RIFE 모델 기반 프레임 보간(Interpolation) 기능을 통해 FPS를 2배, 4배 등으로 향상시킬 수 있습니다.
최대 50 FPS까지 높은 처리 속도를 달성하며, 오픈 소스로 공개되어 누구나 사용할 수 있습니다.

저는 단일 RTX5090 GPU 에서 약 0.2 초의 낮은 지연 시간으로 비디오 스트림을 처리할 수 있도록 Flux.2-Klein-4B 모델에 기반한 파이프라인을 구축했습니다.

이것은 무료이며 오픈 소스로, 로컬에서 시도해 보실 수 있습니다:
https://github.com/tensorforger/FluxRT

내부적으로는 커스텀 공간 인식을 위한 KV-cache 를 사용하므로, 프레임당 이미지 토큰의 소수만 재계산하며, 특히 움직이거나 변경되는 부분에서 계산합니다.

또한 RIFE 모델을 사용하여 프레임 간섭을 수행하며, 이를 통해 FPS 를 2 배, 4 배, 8 배 등으로 곱할 수 있습니다. 저는 4 배가 제 설정에 가장 적절하다고 판단했습니다.

장면 동역학에 따라 출력 스트림은 대부분 정적 장면에서 최대 50 FPS, 전체 입력 이미지가 빠르게 변경될 때 약 20 FPS 를 달성합니다. 벤치마크 결과는 리포지토리에 있습니다.

또한 Gradio 데모와 여러 최소한의 cv2 예제, 실시간 캔버스 업데이트가 있는 간단한 페인트 스타일 앱이 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Flux.2-Klein pipeline for real-time webcam stream processing in 30 FPS

요약

핵심 포인트

댓글