QwenLM/Qwen3-Omni

🖥️ Hugging Face Demo | 🖥️ ModelScope Demo | 💬 WeChat (微信) | 🫨 Discord | 📑 API

우리는 네이티브 엔드투엔드 (end-to-end) 다국어 옴니모달 (omni-modal) 파운데이션 모델 (foundation models)인 Qwen3-Omni를 출시합니다. 이 모델은 텍스트, 이미지, 오디오, 비디오를 포함한 다양한 입력을 처리하도록 설계되었으며, 텍스트와 자연스러운 음성 모두에서 실시간 스트리밍 응답을 제공합니다. 자세한 내용은 아래 영상을 클릭하세요 😃

2025.09.26: ⭐️⭐️⭐️ Qwen3-Omni가 Hugging Face Trending에서 1위를 달성했습니다!
2025.09.22: 🎉🎉🎉 Qwen3-Omni를 출시했습니다. 자세한 내용은 저희 블로그를 확인해 주세요!

Qwen3-Omni는 네이티브 엔드투엔드 (end-to-end) 다국어 옴니모달 (omni-modal) 파운데이션 모델 (foundation models)입니다. 텍스트, 이미지, 오디오, 비디오를 처리하며, 텍스트와 자연스러운 음성 모두에서 실시간 스트리밍 응답을 제공합니다. 성능과 효율성을 향상시키기 위해 몇 가지 아키텍처 (architectural) 업그레이드를 도입했습니다. 주요 특징:

모달리티 (modalities) 전반에 걸친 최첨단 (State-of-the-art) 성능: 초기 텍스트 우선 사전 학습 (text-first pretraining) 및 혼합 멀티모달 학습 (mixed multimodal training)을 통해 네이티브 멀티모달 지원을 제공합니다. 강력한 오디오 및 오디오-비디오 결과를 달성하는 동시에, 단일 모달 (unimodal) 텍스트 및 이미지 성능은 퇴보하지 않습니다. 36개의 오디오/비디오 벤치마크 중 22개에서 SOTA를 달성했으며, 36개 중 32개에서 오픈 소스 SOTA를 달성했습니다. ASR (자동 음성 인식), 오디오 이해 및 음성 대화 성능은 Gemini 2.5 Pro와 대등합니다. -
다국어 지원: 119개의 텍스트 언어, 19개의 음성 입력 언어, 10개의 음성 출력 언어를 지원합니다. 음성 입력 (Speech Input): 영어, 중국어, 한국어, 일본어, 독일어, 러시아어, 이탈리아어, 프랑스어, 스페인어, 포르투갈어, 말레이어, 네덜란드어, 인도네시아어, 터키어, 베트남어, 광둥어, 아랍어, 우르두어. 음성 출력 (Speech Output): 영어, 중국어, 프랑스어, 독일어, 러시아어, 이탈리아어, 스페인어, 포르투갈어, 일본어, 한국어.

새로운 아키텍처 (Novel Architecture): 강력한 일반 표현력 (General Representations)을 위한 AuT 사전 학습 (Pretraining)이 적용된 MoE 기반의 Thinker–Talker 설계, 그리고 지연 시간 (Latency)을 최소화하는 멀티 코드북 (Multi-codebook) 설계.
실시간 오디오/비디오 상호작용 (Real-time Audio/Video Interaction): 자연스러운 대화 차례 넘기기 (Turn-taking)와 즉각적인 텍스트 또는 음성 응답을 제공하는 저지연 스트리밍.
유연한 제어 (Flexible Control): 미세 조정 (Fine-grained control) 및 쉬운 적응을 위해 시스템 프롬프트 (System Prompts)를 통한 동작 커스터마이징 가능.
상세 오디오 캡셔너 (Detailed Audio Captioner): Qwen3-Omni-30B-A3B-Captioner가 오픈 소스로 공개되었습니다. 이는 오픈 소스 커뮤니티의 중요한 공백을 메워주는 범용적이고 매우 상세하며 환각 (Hallucination)이 적은 오디오 캡셔닝 (Audio Captioning) 모델입니다.

Qwen3-Omni는 오디오, 이미지, 비디오 및 오디오-비주얼 (Audio-visual) 모달리티 (Modalities)를 포함하는 다양한 도메인 작업을 아우르며, 폭넓은 멀티모달 (Multimodal) 애플리케이션 시나리오를 지원합니다. 아래에는 Qwen3-Omni의 사용 사례를 보여주는 몇 가지 쿡북 (Cookbooks)이 있으며, 이 쿡북에는 실제 실행 로그가 포함되어 있습니다. 먼저 QuickStart 가이드를 따라 모델을 다운로드하고 필요한 추론 환경 의존성 (Inference Environment Dependencies)을 설치한 다음, 로컬에서 실행 및 실험해 보세요. 프롬프트를 수정하거나 모델 유형을 전환하며 Qwen3-Omni의 역량을 탐구해 보시기 바랍니다!

카테고리 (Category)	쿡북 (Cookbook)	설명 (Description)	오픈 (Open)
오디오 (Audio)	음성 인식 (Speech Recognition)	다국어 및 긴 오디오를 지원하는 음성 인식 (Speech recognition).
...

여기에서 Qwen3-Omni를 빠르게 시작할 수 있는 몇 가지 방법을 제공합니다. Qwen3-Omni를 온전하게 경험하고 싶다면 Hugging Face Transformers를 사용할 수 있습니다. 하지만 Qwen3-Omni는 MoE (Mixture-of-Experts) 아키텍처를 채택하고 있기 때문에, Hugging Face Transformers를 사용하여 MoE 모델을 추론할 경우 속도가 매우 느릴 수 있습니다. 대규모 호출이나 낮은 지연 시간 (low-latency) 요구 사항이 있는 경우, vLLM을 사용하거나 DashScope API를 통해 추론하는 것을 강력히 권장합니다. 또한 Hugging Face Transformers와 vLLM 모두를 위한 완전한 런타임 환경이 포함된 당사의 Docker 이미지를 사용하는 것을 강력히 권장합니다. 아울러, 당사의 쿡북 (cookbooks)은 Qwen3-Omni의 역량을 보여주는 몇 가지 사용 사례를 제공합니다. 더 많은 내용을 학습해 보세요!

아래는 모든 Qwen3-Omni 모델에 대한 설명입니다. 귀하의 필요에 맞는 모델을 선택하여 다운로드하십시오.

모델 이름 (Model Name)	설명 (Description)
Qwen3-Omni-30B-A3B-Instruct	Qwen3-Omni-30B-A3B의 인스트럭트 (Instruct) 모델로, thinker와 talker를 모두 포함하며 오디오, 비디오, 텍스트 입력을 지원하고 오디오 및 텍스트 출력을 제공합니다. 자세한 내용은 Qwen3-Omni 기술 보고서 (Technical Report)를 참조하십시오.
...

Hugging Face Transformers 또는 vLLM에서 로딩하는 동안, 모델 가중치 (weights)는 모델 이름에 따라 자동으로 다운로드됩니다. 하지만 실행 중에 가중치를 다운로드하기에 런타임 환경이 적절하지 않은 경우, 다음 명령어를 참조하여 모델 가중치를 로컬 디렉토리에 수동으로 다운로드할 수 있습니다:

# ModelScope를 통한 다운로드 (중국 본토 사용자에게 권장)
pip install -U modelscope
modelscope download --model Qwen/Qwen3-Omni-30B-A3B-Instruct --local_dir ./Qwen3-Omni-30B-A3B-Instruct
...

최상의 성능과 정확도를 위해 Transformers 버전 5.2.0 이상을 사용하는 것을 권장합니다. Transformers 4.57.x와 같은 이전 버전은 성능이 더 낮을 뿐만 아니라, 5.2.0 이상의 버전과 비교했을 때 정확도도 더 낮습니다.

# 이미 transformers가 설치되어 있다면, 먼저 삭제하거나 새로운 Python 환경을 생성하십시오.
# pip uninstall transformers
pip install "transformers>=5.2.0"
...

저희는 다양한 유형의 오디오 및 시각적 입력을 더욱 편리하게 처리할 수 있도록 API와 유사한 경험을 제공하는 툴킷을 제공합니다. 여기에는 base64, URL, 그리고 오디오, 이미지, 비디오가 교차 배치된 (interleaved) 데이터에 대한 지원이 포함됩니다. 다음 명령어를 사용하여 설치할 수 있으며, 시스템에 ffmpeg가 설치되어 있는지 확인하십시오.

pip install qwen-omni-utils -U

또한, Hugging Face Transformers로 실행할 때 GPU 메모리 사용량을 줄이기 위해 FlashAttention 2를 사용하는 것을 권장합니다. 하지만 주로 추론(inference)을 위해 vLLM을 사용한다면, vLLM에 FlashAttention 2가 기본적으로 포함되어 있으므로 이 설치는 필요하지 않습니다.

pip install -U flash-attn --no-build-isolation

또한, FlashAttention 2와 호환되는 하드웨어를 갖추고 있어야 합니다. 이에 대한 자세한 내용은 FlashAttention 저장소의 공식 문서를 참조하십시오. FlashAttention 2는 모델이 torch.float16 또는 torch.bfloat16으로 로드될 때만 사용할 수 있습니다.

다음은 transformers 및 qwen_omni_utils를 사용하여 Qwen3-Omni를 사용하는 방법을 보여주는 코드 스니펫입니다:

import soundfile as sf
from transformers import Qwen3OmniMoeForConditionalGeneration, Qwen3OmniMoeProcessor
from qwen_omni_utils import process_mm_info
...

다음은 몇 가지 더 고급 사용 예시입니다. 아래 섹션들을 확장하여 더 자세히 알아볼 수 있습니다.

배치 추론 (Batch inference)

return_audio=False로 설정된 경우, 모델은 텍스트, 이미지, 오디오, 비디오와 같은 다양한 유형의 샘플이 혼합된 입력을 배치(batch)로 처리할 수 있습니다. 다음은 그 예시입니다.

from transformers import Qwen3OmniMoeForConditionalGeneration, Qwen3OmniMoeProcessor
from qwen_omni_utils import process_mm_info
MODEL_PATH = "Qwen/Qwen3-Omni-30B-A3B-Instruct"
...

오디오 출력 사용 여부

이 모델은 텍스트와 오디오 출력을 모두 지원합니다. 사용자가 오디오 출력을 필요로 하지 않는 경우, 모델을 초기화한 후 model.disable_talker()를 호출할 수 있습니다. 이 옵션을 사용하면 약 10GB의 GPU 메모리를 절약할 수 있지만, generate 함수의 return_audio 옵션은 False로만 설정할 수 있게 됩니다.

model = Qwen3OmniMoeForConditionalGeneration.from_pretrained(
"Qwen/Qwen3-Omni-30B-A3B-Instruct",
dtype="auto",
...

더욱 유연한 경험을 위해, 사용자는 generate 함수가 호출될 때 오디오를 반환할지 여부를 결정하는 것을 권장합니다. 만약 return_audio가 False로 설정되면, 모델은 텍스트 출력만 반환하므로 더 빠른 텍스트 응답을 얻을 수 있습니다.

model = Qwen3OmniMoeForConditionalGeneration.from_pretrained(
"Qwen/Qwen3-Omni-30B-A3B-Instruct",
dtype="auto",
...

</details> <details> <summary>출력 오디오의 목소리 유형 변경</summary> Qwen3-Omni는 출력되는 오디오의 목소리를 변경하는 것을 지원합니다. `"Qwen/Qwen3-Omni-30B-A3B-Instruct"` 체크포인트는 다음과 같이 세 가지 목소리 유형을 지원합니다:

목소리 유형	성별	설명
Ethan	남성	전염성 있는 에너지와 따뜻하고 친근한 분위기를 가진 밝고 경쾌한 목소리
...	사용자는 `generate` 함수의 `speaker` 파라미터를 사용하여 목소리 유형을 지정할 수 있습니다. 기본적으로 `speaker`가 지정되지 않으면 목소리 유형은 `Ethan`입니다.

text_ids, audio = model.generate(..., speaker="Ethan")

text_ids, audio = model.generate(..., speaker="Chelsie")

text_ids, audio = model.generate(..., speaker="Aiden")

또한, 프롬프트 설정, 작업별 사용 방법, 리소스 요구 사항과 같은 더 자세한 사용법은 사용 사례를 위한 Usage Tips 및 Cookbooks를 참조하십시오.

Qwen3-Omni 시리즈 모델을 경험하기 위해 최신 vLLM-Omni를 사용할 것을 강력히 권장합니다. 자세한 내용은 vLLM-Omni 공식 오프라인 추론 (offline inference) 문서 및 온라인 추론 (online inference) 문서를 참조하십시오.

또한 Qwen3-Omni 시리즈 모델의 추론 (inference) 및 배포 (deployment)를 위해 vLLM을 사용할 것을 권장합니다. 런타임 환경 (runtime environment) 충돌 및 호환성 문제를 방지하기 위해 새로운 Python 환경을 생성할 것을 권장합니다.

pip install vllm
pip install qwen-omni-utils -U

다음 코드를 사용하여 vLLM 추론을 수행할 수 있습니다. limit_mm_per_prompt 파라미터는 메시지당 허용되는 각 모달리티 (modality) 데이터의 최대 개수를 지정합니다. vLLM은 GPU 메모리를 미리 할당해야 하므로, 값이 클수록 더 많은 GPU 메모리가 필요합니다. 만약 OOM (Out Of Memory) 문제가 발생하면 이 값을 줄여보십시오. tensor_parallel_size를 1보다 크게 설정하면 멀티 GPU 병렬 추론 (multi-GPU parallel inference)이 활성화되어 동시성 (concurrency)과 처리량 (throughput)이 향상됩니다. 또한, max_num_seqs는 vLLM이 각 추론 단계에서 병렬로 처리하는 시퀀스 (sequences)의 수를 나타냅니다. 값이 클수록 더 많은 GPU 메모리가 필요하지만 더 높은 배치 추론 (batch inference) 속도를 구현할 수 있습니다. 자세한 내용은 vLLM 공식 문서를 참조하십시오. 아래는 vLLM으로 Qwen3-Omni를 실행하는 간단한 예시입니다:

import os
import torch
from vllm import LLM, SamplingParams
...

다음은 몇 가지 더 고급 사용 예시입니다. 아래 섹션을 확장하여 더 자세히 알아볼 수 있습니다.

배치 추론 (Batch inference)

vLLM을 사용하면 빠른 배치 추론이 가능하여 대량의 데이터를 효율적으로 처리하거나 벤치마킹 (benchmarking)을 수행하는 데 도움이 됩니다. 다음 코드 예시를 참조하십시오:

import os
import torch
from vllm import LLM, SamplingParams
...

vLLM 서빙 (vLLM Serve) 사용법

Qwen3-Omni를 위한 vLLM 서빙 (vLLM serve)은 현재 thinker 모델만 지원합니다. use_audio_in_video 파라미터는 vLLM 서빙에서 사용할 수 없으며, 비디오와 오디오 입력을 별도로 전달하여 처리함으로써 해결할 수 있습니다. 다음 명령어를 통해 vLLM 서빙을 시작할 수 있습니다:

# 단일 GPU를 위한 Qwen3-Omni-30B-A3B-Instruct
vllm serve Qwen/Qwen3-Omni-30B-A3B-Instruct --port 8901 --host 127.0.0.1 --dtype bfloat16 --max-model-len 32768 --allowed-local-media-path / -tp 1
# 다중 GPU를 위한 Qwen3-Omni-30B-A3B-Instruct (4개 GPU 예시)
...

그 다음 아래와 같이 채팅 API (예를 들어 curl을 통해)를 사용할 수 있습니다:

curl http://localhost:8901/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
...

또한, 프롬프트 설정, 작업별 사용 방법, 리소스 요구 사항과 같은 더 자세한 사용법은 Usage Tips 및 Cookbooks for Usage Cases를 참조하십시오.

Qwen3-Omni를 더 깊이 탐색하려면, 더 빠르고 효율적인 경험을 위해 당사의 DashScope API를 사용해 보시기를 권장합니다. 자세한 API 정보 및 문서는 다음을 참조하십시오:

API 설명	API 문서 (중국 본토)	API 문서 (국제)
Instruct 및 Thinking 모델을 포함한 Qwen3-Omni-Flash용 오프라인 API	https://help.aliyun.com/zh/model-studio/qwen-omni	https://www.alibabacloud.com/help/en/model-studio/qwen-omni
...
모델	정밀도 (Precision)	15초 비디오
---	---	---
Qwen3-Omni-30B-A3B-Instruct	BF16	78.85 GB
Qwen3-Omni-30B-A3B-Thinking	BF16	68.74 GB

참고: 위 표는 attn_implementation="flash_attention_2"로 테스트된 transformers 및 BF16 정밀도에서의 추론(inference)을 위한 이론적 최소 메모리 요구 사항을 나타냅니다. Instruct 모델은 thinker와 talker 구성 요소를 모두 포함하며, Thinking 모델은 thinker 부분만 포함합니다.

QwenLM/Qwen3-Omni

요약

핵심 포인트

배치 추론 (Batch inference)

오디오 출력 사용 여부

배치 추론 (Batch inference)

vLLM 서빙 (vLLM Serve) 사용법

댓글