대규모 오디오-언어 모델(LALM)에서 청취 중 사고 시점을 학습하는 방법
요약
LALM의 실시간 스트리밍 상호작용을 개선하기 위해 '대기-사고-답변(wait-think-answer)' 제어 공식을 제안합니다. DAPO 최적화 기법을 통해 답변 정확도를 높이면서도 불필요한 추론 지연 시간을 단축하는 학습 방법을 다룹니다.
핵심 포인트
- 실시간 음성 상호작용을 위한 대기-사고-답변 컨트롤러 제안
- DAPO를 통한 답변 정확도 향상 및 추론 길이 감소
- Qwen2.5-Omni-7B 기반의 음성 추론 데이터 학습
- SRQA 벤치마크 및 Real Audio Bench를 통한 성능 검증
최근 대규모 오디오-언어 모델 (Large Audio-Language Models, LALMs)의 발전으로 실시간 스트리밍 음성 상호작용이 점점 더 실용적으로 변하고 있습니다. 이러한 환경에서는 추론(reasoning)의 품질과 응답성(responsiveness)이 밀접하게 결합되어 있습니다. 음성 종료 시점까지 추론을 지연시키면 답변의 품질은 향상될 수 있지만, 숙고 과정이 사용자에게 보이는 응답 지연으로 이어지며, 반대로 너무 일찍 답변하면 결정적인 증거가 도착하기 전에 성급하게 결론을 내릴 위험이 있습니다. 본 논문에서는 LALMs를 위한 학습 가능한 '대기-사고-답변 (wait-think-answer)' 제어 공식을 소개합니다. 인간 대화의 점진적인 특성에서 영감을 얻은 이 컨트롤러는 부분적인 오디오 증거 하에서 언제 대기할지, 언제 압축된 추론 업데이트를 외부로 표출할지, 그리고 언제 답변할지를 결정합니다. Qwen2.5-Omni-7B를 기본 모델로 사용하여, 음성 추론 데이터로부터 정렬된 대기-사고-답변 트레이스(traces)를 구축하고, 지도 미세 조정 (Supervised Fine-Tuning, SFT)을 통해 컨트롤러를 학습시킨 후, 분리된 클립 및 동적 샘플링 정책 최적화 (Decoupled Clip and Dynamic Sampling Policy Optimization, DAPO)를 적용합니다. 보상(reward)은 답변의 정확성, 행동의 유효성, 업데이트 타이밍, 지연 시간 동기화, 추론 품질, 그리고 체인 일관성 (chain consistency)을 결합하여, 최종 답변뿐만 아니라 전체적인 대기-사고-답변 궤적을 최적화합니다. 6개의 태스크로 구성된 합성 음성 추론 질의응답 (Spoken Reasoning Question Answering, SRQA) 벤치마크에서, 6가지 보상을 사용하는 DAPO 컨트롤러는 동일한 Qwen 배포 하네스(harness) 환경에서 행 가중 정확도 (row-weighted accuracy)를 67.6%에서 70.3%로 향상시키는 동시에, 종료 후 최종 사고 (final-think) 길이를 14% 감소시켰습니다. 텍스트 음성 변환 (Text-to-Speech, TTS)으로 생성된 음성을 넘어선 전이 확인을 위해 186개 항목의 인간 녹음 데이터인 Real Audio Bench를 사용한 결과, 컨트롤러 제품군은 여전히 기능을 유지했습니다. SFT는 가장 강력한 정확도를 달성했으며, 6가지 보상을 사용하는 DAPO 컨트롤러는 최종 사고 길이가 기본 모델보다 낮아진 유일한 학습 변형 모델이었습니다. 이러한 결과는 스트리밍 모델이 오디오 스트림 도중 언제 중간 추론을 명시적으로 드러낼지를 학습해야 함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기