
Audio-Interaction: 마침내 실시간으로 경청하는 스트리밍 오디오 모델
요약
실시간 스트리밍 오디오 처리를 위해 '인지-결정-응답' 루프를 통합한 새로운 모델을 소개합니다. 전사, 채팅, 선제적 개입을 하나의 상시 가동 모델로 구현하여 스스로 발화 시점을 결정할 수 있습니다.
핵심 포인트
- 인지-결정-응답 루프를 통한 실시간 스트리밍 구현
- 전사, 채팅, 선제적 개입 기능의 단일 모델 통합
- 모델 스스로 적절한 발화 타이밍을 결정하는 능력
- 2.6M 항목의 대규모 StreamAudio-2M 데이터셋 활용
Audio-Interaction: 마침내 실시간으로 경청하는 스트리밍 오디오 모델
항상 켜져 있는 '인지-결정-응답 (perceive-decide-respond)' 루프를 통해, 이 모델은 스스로 언제 말할지를 결정합니다. 이는 전사 (transcription), 채팅 (chatting), 그리고 선제적 개입 (proactive intervention)을 하나의 상시 가동 모델로 통합합니다.
논문 페이지:
https://huggingface.co/papers/2606.05
121
…
모델:
https://huggingface.co/zhifeixie/AudioInteraction
…
데이터셋 (2.6M 항목):
https://huggingface.co/datasets/zhifeixie/StreamAudio-2M
…
코드:
https://github.com/xzf-thu/Audio-Interaction
…
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기