본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 05:41

LLM은 말하는 동안 어떻게 듣고 있어야 할까요? 전이중 통신 음성 대화에서 사용자 스트림 라우팅에 대한 연구

요약

본 연구는 LLM이 응답을 생성하는 동시에 사용자 음성을 듣고 반응해야 하는 전이중(Full-duplex) 음성 대화 시스템의 아키텍처 문제를 다룹니다. 기존 LLMs가 실시간으로 들어오는 스트리밍 입력을 처리하기 어렵다는 한계를 극복하기 위해, 연구진은 두 가지 주요 라우팅 전략인 채널 융합과 교차 어텐션 라우팅을 비교했습니다. 이 연구는 전이중 대화에서 사용자 입력의 효과적인 통합 방식을 제시하며, 의미론적 통합과 문맥 강건성 사이의 설계 트레이드오프에 대한 실질적인 지침을 제공합니다.

핵심 포인트

  • 전이중 음성 대화는 모델이 응답 생성 중에도 사용자 입력을 지속적으로 수신해야 하는 복잡한 환경입니다.
  • 기존 LLMs는 사용자의 입력이 도착하는 도중에 처리되는 스트리밍 상황을 자연스럽게 지원하지 못합니다.
  • 연구에서는 두 가지 라우팅 전략(채널 융합 및 교차 어텐션 라우팅)을 비교하여 전이중 모델링의 최적 아키텍처를 탐구했습니다.
  • 사용자 스트림 라우팅은 전이중 대화 시스템의 핵심 설계 요소이며, 의미론적 통합과 문맥 강건성 사이의 트레이드오프가 중요합니다.

전이중(Full-duplex) 음성 대화는 모델이 자신의 응답을 생성하면서도 계속해서 듣고 있는 상태를 요구합니다. 이는 단일하고 일관된 시퀀스를 확장하도록 설계된 거대 언어 모델(LLMs)에게는 어려운 문제입니다. LLMs는 일반적으로 사용자의 입력이 생성되는 도중에 도착하는 상황을 자연스럽게 지원하지 않기 때문입니다. 따라서 사용자 스트림이 LLM으로 어떻게 라우팅되느냐가 전이중 모델링의 핵심적인 아키텍처 질문이라고 주장합니다. 이 질문을 연구하기 위해, 우리는 텍스트 전용 LLM을 통합된 전이중 음성 대화 시스템으로 확장하고, 공유 학습 파이프라인 하에서 두 가지 라우팅 전략을 비교했습니다: (i) 채널 융합(channel fusion)은 사용자 스트림을 LLM 입력에 직접 주입하며, 그리고 (ii) 교차 어텐션 라우팅(cross-attention routing)은 us

이러한 결과들은 전이중(full-duplex) 음성 대화에서 사용자 스트림 라우팅을 핵심 설계 축으로 확립하며, 의미론적 통합과 문맥 강건성 사이의 트레이드오프에 대한 실질적인 지침을 제공합니다. 정성적 검사를 위한 데모 페이지를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0