X요약2026. 06. 05. 13:53

Audio-Interaction: 마침내 실시간으로 경청하는 스트리밍 오디오 모델

요약

실시간 스트리밍 오디오 처리를 위해 '인지-결정-응답' 루프를 통합한 새로운 모델을 소개합니다. 전사, 채팅, 선제적 개입을 하나의 상시 가동 모델로 구현하여 스스로 발화 시점을 결정할 수 있습니다.

핵심 포인트

인지-결정-응답 루프를 통한 실시간 스트리밍 구현
전사, 채팅, 선제적 개입 기능의 단일 모델 통합
모델 스스로 적절한 발화 타이밍을 결정하는 능력
2.6M 항목의 대규모 StreamAudio-2M 데이터셋 활용

항상 켜져 있는 '인지-결정-응답 (perceive-decide-respond)' 루프를 통해, 이 모델은 스스로 언제 말할지를 결정합니다. 이는 전사 (transcription), 채팅 (chatting), 그리고 선제적 개입 (proactive intervention)을 하나의 상시 가동 모델로 통합합니다.

논문 페이지:
https://huggingface.co/papers/2606.05
121
…
모델:
https://huggingface.co/zhifeixie/AudioInteraction
…
데이터셋 (2.6M 항목):
https://huggingface.co/datasets/zhifeixie/StreamAudio-2M
…
코드:
https://github.com/xzf-thu/Audio-Interaction
…

AI 자동 생성 콘텐츠

원문 바로가기

Audio-Interaction: 마침내 실시간으로 경청하는 스트리밍 오디오 모델

요약

핵심 포인트

댓글