arXiv논문2026. 06. 16. 12:24

인식에서 준수까지: 문맥 인식 디코딩(Context-Aware Decoding)을 통한 음성 대화 시스템의 문맥 격차 해소

요약

엔드투엔드 음성 대화 시스템에서 모델의 파라미터 사전 확률이 문맥 신호를 압도하여 발생하는 문맥 준수 문제를 해결하기 위한 CAD 방식을 제안합니다. 내부 어텐션 메커니즘을 활용해 핵심 문맥을 증폭함으로써 다회차 대화의 일관성을 높였습니다.

핵심 포인트

모델의 파라미터 사전 확률이 문맥 신호를 압도하는 병목 현상 지적
Context-Aware Decoding(CAD)을 통한 멀티모달 문맥 신호 증폭
Audio MultiChallenge 벤치마크를 통한 의미론적 기억 및 자기 일관성 개선 입증

엔드투엔드 (E2E) 음성 대화 시스템의 성공에도 불구하고, 다회차 대화에서 엄격한 문맥 준수 (context adherence)를 유지하는 것은 여전히 과제로 남아 있습니다. 기존 연구들은 이러한 실패의 원인을 모델이 대화 이력을 망각하는 것에 두었으나, 우리는 그에 못지않게 중요하지만 간과되었던 병목 현상, 즉 잠재적 문맥 인식 (latent context awareness)과 능동적 준수 (active adherence) 사이의 격차를 강조합니다. 모델이 내부적으로 관련 있는 과거 발화들을 인식하고 있음에도 불구하고, 강력한 파라미터 사전 확률 (parametric priors)이 디코딩 과정에서 이러한 신호들을 압도하는 경우가 많습니다. 이 격차를 해소하기 위해, 우리는 오디오에 적응된 문맥 인식 디코딩 (Context-Aware Decoding, CAD) 방식을 제안합니다. 내부 어텐션 메커니즘 (attention mechanisms)을 활용하여 핵심적인 과거 대화 회차를 분리함으로써, 우리의 방식은 추론 과정에서 이 핵심 문맥이 있을 때와 없을 때의 출력 분포를 대조하여 멀티모달 문맥 신호를 직접적으로 증폭시킵니다. Audio MultiChallenge 벤치마크를 통한 평가 결과, 의미론적 기억 (Semantic Memory) 및 자기 일관성 (Self Coherence) 하위 작업에서 상당한 개선을 보였으며, 엄격하고 문맥에 충실한 준수를 성공적으로 강제함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

인식에서 준수까지: 문맥 인식 디코딩(Context-Aware Decoding)을 통한 음성 대화 시스템의 문맥 격차 해소

요약

핵심 포인트

댓글