sgl-project/sglang-omni
요약
SGLang-Omni는 SGLang을 기반으로 구축된 고성능 서빙 프레임워크로, omni 및 멀티모달 모델의 복잡한 파이프라인 오케스트레이션을 지원합니다. 이 프레임워크는 계산 중심 설계와 독립 스케줄러를 통해 병목 현상을 최소화하고, OpenAI 호환 API를 제공하여 다양한 최신 TTS/omni 모델을 쉽게 통합할 수 있게 합니다.
핵심 포인트
- Omni 및 멀티모달 모델의 복잡한 파이프라인 오케스트레이션 지원
- 계산 중심 설계와 독립 스케줄러로 병목 현상 최소화
- OpenAI 호환 API를 통해 기존 시스템에 쉽게 통합 가능
- SGLang의 최적화 기술(RadixAttention, continuous batching) 활용
SGLang-Omni는 SGLang을 기반으로 구축된, omni 및 멀티모달 모델을 위한 고성능 서빙 프레임워크입니다. 이 프레임워크는 낮은 지연 시간과 OpenAI와 호환되는 API를 갖춘 다단계 파이프라인을 오케스트레이션하도록 설계되었습니다.
현대의 omni 모델 — 예를 들어 음성 출력 LLM이나 멀티모달 생성 시스템 — 은 근본적으로 다른 계산 프로파일을 가진 이질적인 단계들로 분해됩니다: 컴퓨팅 바운드인 사고(thinker) 단계, 메모리 바운드인 대화(talker) 단계, 지연 시간에 민감한 코덱(codec) 단계. SGLang-Omni는 **계산 중심 설계(computation-centric design)**를 기반으로 구축되었습니다. 각 단계는 자체 독립 스케줄러를 실행하여 병목 현상에 맞춰 조정하고, 공유 인박스/아웃박스 추상화를 통해 통신하며, 제로 카피 공유 메모리를 통해 텐서를 전송합니다. 이를 통해 단일 단계가 다른 단계의 성능을 저하시키는 것을 방지하며, 새로운 모델은 추론 시스템을 처음부터 구축하는 대신 파이프라인 토폴로지를 선언함으로써 프레임워크에 플러그인할 수 있습니다.
핵심 기능:
다단계 파이프라인(Multi-Stage Pipeline): 프로세스와 GPU 전반에 걸쳐 전처리, AR 엔진, 코덱, 보코더 단계를 오케스트레이션하는 유연한 프레임워크입니다.네이티브 SGLang 통합(Native SGLang Integration): AR 백본을 위해 SGLang의 RadixAttention, 연속 배치 처리(continuous batching), CUDA Graph 최적화를 활용합니다.OpenAI 호환 서버(OpenAI-Compatible Server): 실시간 스트리밍 지원과 함께 /v1/audio/speech 및 /v1/chat/completions 엔드포인트를 드롭인 방식으로 제공합니다.광범위한 모델 지원(Broad Model Support): Higgs Audio, Fish Audio S2-Pro, Voxtral TTS, Qwen3 TTS, MOSS-TTS, Qwen3-Omni, Ming-Omni, LLaDA2.0-Uni를 포함하여 증가하는 TTS 및 omni 모델 세트를 지원합니다.
| Model | Type | Notes |
|---|---|---|
| bosonai/higgs-audio-v3-tts-4b | TTS | 음성 복제(Voice cloning), 스트리밍, 102개 언어 |
| ... | inclusionAI/LLaDA2.0-Uni |
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Python (weekly)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기