통합 오디오 이해 및 생성을 위한 효율적인 vLLM 기반 추론 파이프라인

대규모 멀티모달 모델(Large Multimodal Models)은 이해 능력 면에서 뛰어나지만, 고처리량(high-throughput) 추론 엔진은 멀티모달 생성에 대한 네이티브 지원이 부족합니다. 이는 음성 언어 모델(Speech Language Models)에서 심각하게 나타나는데, 분리된 AR(Autoregressive) + NAR(Non-Autoregressive) 방식이나 지연 패턴 인터리빙(delay-pattern interleaving)을 동반한 동기식 멀티 토큰 예측(Multi-Token Prediction, MTP)을 통해 다층 오디오 토큰을 생성하는 과정이 표준적인 단일 스트림 루프(single-stream loops)와 충돌하기 때문입니다. 본 논문에서는 통합된 음성 이해 및 생성을 위한 vLLM 기반 추론 파이프라인을 제시합니다. 우리는 자기회귀 디코딩(autoregressive decoding)을 확장하여 지연 패턴 디인터리빙(delay-pattern de-interleaving)과 조정된 멀티 스트림 샘플링(multi-stream sampling)을 네이티브하게 실행하도록 하며, 엔드 투 엔드(end-to-end) 파형 합성을 위해 온-GPU(on-GPU) 음향 디코더(acoustic decoder)를 통합합니다. 결정적으로, 우리는 Classifier-Free Guidance (CFG)가 처리량을 절반으로 줄인다는 공통된 직관을 극복합니다. 연속 배치(continuous batch) 내에서 쌍을 이루는 조건부(conditional) 및 무조건부(unconditional) 요청을 공동 스케줄링(co-scheduling)함으로써, 우리의 CFG 구현은 이중 요청 및 로짓 병합(logit merging) 오버헤드를 흡수하여 비-CFG(non-CFG) 처리량의 80%를 유지합니다. 우리는 우리의 프레임워크를 오픈 소스로 공개합니다.

Insights

통합 오디오 이해 및 생성을 위한 효율적인 vLLM 기반 추론 파이프라인

요약

핵심 포인트

댓글

Claude Code가 파일을 다시 읽고 명령 출력을 확인하며 낭비하는 토큰 양을 일주일 동안 측정해 보았습니다. 약 1,050만 개에

Claude Code에서 Grok으로 전환하기 – 동일한 인터페이스, 다른 모델

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화

Claude Code가 파일을 다시 읽고 명령 출력을 확인하며 낭비하는 토큰 양을 일주일 동안 측정해 보았습니다. 약 1,050만 개에

Claude Code에서 Grok으로 전환하기 – 동일한 인터페이스, 다른 모델

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화