오디오 분야의 또 다른 혁신적인 오픈 소스 제품: MOSS-Audio

오디오 (Audio) 분야에서 획기적인 또 다른 오픈 소스 (Open Source) 제품이 등장했습니다: MOSS-Audio.

4B 및 8B 크기로 제공되며, 각각 Instruct 및 Thinking 버전을 선택할 수 있습니다.

가장 인상적인 특징은 여섯 가지 능력을 단일 모델에 결합했다는 점입니다:

1️⃣ 자동 음성 인식 (ASR)

2️⃣ 화자 분리 (Speaker Diarization) – 누가 말하고 있는지 명확하게 구분합니다.

3️⃣ 감정 인식 (Emotion Recognition) – 당신이 행복한지 아니면 슬픈지를 이해합니다.

4️⃣ 환경음 분석 (Ambient Sound Analysis) – 빗소리, 교통 소음, 키보드 소리 등을 인식합니다.

5️⃣ 음악 이해 (Music Understanding) – 단순히 노래 제목을 인식하는 것을 넘어, 그 구조를 진정으로 이해합니다.

6️⃣ 타임스탬프 기반 ASR (Timestamped ASR) – 각 단어가 언제 말해졌는지 정확하게 결정합니다.

타임스탬프 기반 자동 음성 인식 (ASR) 측면에서, Gemini 2.5 Pro를 훨씬 앞서고 있습니다. 단순히 조금 더 나은 수준이 아니라 완전히 압도적입니다.

이전에는 오디오 처리를 위해 수많은 모델을 만들어야 했지만, 이제는 단 하나의 모델이 모든 것을 처리하며 오픈 소스 (Open Source)로 제공됩니다. 자막, 팟캐스트, 고객 서비스 품질 관리 및 음악 설명 등—애플리케이션 비용이 직접적으로 절감되었습니다.

OpenMOSS 팀은 조용히 움직여 업계를 뒤흔들었습니다.

HuggingFace에서 직접 확인하세요.

Insights