arXiv논문2026. 06. 04. 12:03

오디오 상호작용 모델 (Audio Interaction Model)

요약

실시간 소리 인지, 결정, 응답이 가능한 통합 스트리밍 오디오 상호작용 모델인 Audio-Interaction을 제안합니다. SoundFlow 프레임워크와 StreamAudio-2M 데이터셋을 통해 오프라인 모델의 한계를 넘어 실시간 음성 채팅 및 주도적 개입 능력을 구현했습니다.

핵심 포인트

실시간 '인지-결정-응답' 루프를 지원하는 온라인 LALM 통합
SoundFlow 프레임워크를 통한 엔드 투 엔드 스트리밍 구현
260만 항목의 스트리밍 코퍼스 StreamAudio-2M 구축
주도적 오디오 개입 평가를 위한 Proactive-Sound-Bench 제안

오디오는 본질적으로 상호작용적인 양식(modality)이지만, 오늘날의 대규모 오디오 언어 모델 (Large Audio Language Models, LALMs)은 오프라인 방식이며, 스트리밍 오디오 모델들은 스트리밍 ASR(자동 음성 인식)이나 음성 채팅과 같이 각각 단일 작업만을 처리합니다. 이제 이들을 하나의 온라인 LALM으로 통합해야 할 때입니다. 즉, 항상 켜져 있는 '인지-결정-응답 (perceive-decide-respond)' 루프를 통해 소리, 환경, 지시 사항을 실시간으로 듣고 즉각적으로 반응하는 모델이 필요합니다. 우리는 이 체계를 오디오 상호작용 모델 (Audio Interaction Model)로 공식화하며, 이를 Audio-Interaction을 통해 구현합니다. Audio-Interaction은 오프라인 작업 실행 능력을 유지하면서도, 대화부터 전체 음성 채팅에 이르기까지 스트림의 의미론(semantics)으로부터 응답 시점을 결정하는 온라인 범용 오디오 지시 수행 (audio instruction following) 능력을 추가한 통합 스트리밍 모델입니다. 이를 가능하게 하기 위해, 우리는 데이터 구축부터 학습, 배포에 이르기까지 스트리밍 네이티브 데이터 구축, 이해도 기반 학습 (comprehension-aware training), 그리고 안정적인 실시간 상호작용을 위한 비동기 저지연 추론 (asynchronous low-latency inference)을 통해 '인지-결정-응답' 루프를 엔드 투 엔드 (end-to-end)로 구현하는 프레임워크인 SoundFlow를 제안합니다. 나아가 우리는 7가지 기본 능력과 28가지 하위 작업을 아우르는 260만 개의 항목으로 구성된 스트리밍 코퍼스인 StreamAudio-2M과, 주도적인 오디오 개입 (proactive audio intervention)을 평가하기 위한 Proactive-Sound-Bench를 구축했습니다. 8개의 벤치마크 전반에 걸쳐, Audio-Interaction은 주요 오디오 작업에서 경쟁력 있는 성능을 유지하는 동시에, 실시간 ASR, 스트리밍 오디오 지시 수행, 주도적 도움 등 오프라인 LALMs가 접근할 수 없었던 능력들을 실현합니다.

AI 자동 생성 콘텐츠

원문 바로가기

오디오 상호작용 모델 (Audio Interaction Model)

요약

핵심 포인트

댓글