통합 오디오 이해 및 생성을 위한 효율적인 vLLM 기반 추론 파이프라인
요약
멀티모달 모델의 오디오 이해 및 생성을 위한 효율적인 vLLM 기반 추론 파이프라인을 제안합니다. 자기회귀 디코딩 확장과 온-GPU 음향 디코더 통합을 통해 단일 스트림 루프의 충돌 문제를 해결했습니다. 특히 CFG 구현 시 공동 스케줄링을 통해 처리량 저하 문제를 획기적으로 개선했습니다.
핵심 포인트
- vLLM 기반의 통합 오디오 이해 및 생성 파이프라인 제안
- 지연 패턴 디인터리빙 및 멀티 스트림 샘플링을 통한 디코딩 확장
- 온-GPU 음향 디코더 통합으로 엔드 투 엔드 파형 합성 구현
- 공동 스케줄링을 통해 CFG 적용 시에도 높은 처리량 유지
대규모 멀티모달 모델(Large Multimodal Models)은 이해 능력 면에서 뛰어나지만, 고처리량(high-throughput) 추론 엔진은 멀티모달 생성에 대한 네이티브 지원이 부족합니다. 이는 음성 언어 모델(Speech Language Models)에서 심각하게 나타나는데, 분리된 AR(Autoregressive) + NAR(Non-Autoregressive) 방식이나 지연 패턴 인터리빙(delay-pattern interleaving)을 동반한 동기식 멀티 토큰 예측(Multi-Token Prediction, MTP)을 통해 다층 오디오 토큰을 생성하는 과정이 표준적인 단일 스트림 루프(single-stream loops)와 충돌하기 때문입니다. 본 논문에서는 통합된 음성 이해 및 생성을 위한 vLLM 기반 추론 파이프라인을 제시합니다. 우리는 자기회귀 디코딩(autoregressive decoding)을 확장하여 지연 패턴 디인터리빙(delay-pattern de-interleaving)과 조정된 멀티 스트림 샘플링(multi-stream sampling)을 네이티브하게 실행하도록 하며, 엔드 투 엔드(end-to-end) 파형 합성을 위해 온-GPU(on-GPU) 음향 디코더(acoustic decoder)를 통합합니다. 결정적으로, 우리는 Classifier-Free Guidance (CFG)가 처리량을 절반으로 줄인다는 공통된 직관을 극복합니다. 연속 배치(continuous batch) 내에서 쌍을 이루는 조건부(conditional) 및 무조건부(unconditional) 요청을 공동 스케줄링(co-scheduling)함으로써, 우리의 CFG 구현은 이중 요청 및 로짓 병합(logit merging) 오버헤드를 흡수하여 비-CFG(non-CFG) 처리량의 80%를 유지합니다. 우리는 우리의 프레임워크를 오픈 소스로 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기