LLM은 말하는 동안 어떻게 듣고 있어야 할까요? 전이중 통신 음성 대화에서 사용자 스트림 라우팅에 대한 연구

전이중(Full-duplex) 음성 대화는 모델이 자신의 응답을 생성하면서도 계속해서 듣고 있는 상태를 요구합니다. 이는 단일하고 일관된 시퀀스를 확장하도록 설계된 거대 언어 모델(LLMs)에게는 어려운 문제입니다. LLMs는 일반적으로 사용자의 입력이 생성되는 도중에 도착하는 상황을 자연스럽게 지원하지 않기 때문입니다. 따라서 사용자 스트림이 LLM으로 어떻게 라우팅되느냐가 전이중 모델링의 핵심적인 아키텍처 질문이라고 주장합니다. 이 질문을 연구하기 위해, 우리는 텍스트 전용 LLM을 통합된 전이중 음성 대화 시스템으로 확장하고, 공유 학습 파이프라인 하에서 두 가지 라우팅 전략을 비교했습니다: (i) 채널 융합(channel fusion)은 사용자 스트림을 LLM 입력에 직접 주입하며, 그리고 (ii) 교차 어텐션 라우팅(cross-attention routing)은 us

이러한 결과들은 전이중(full-duplex) 음성 대화에서 사용자 스트림 라우팅을 핵심 설계 축으로 확립하며, 의미론적 통합과 문맥 강건성 사이의 트레이드오프에 대한 실질적인 지침을 제공합니다. 정성적 검사를 위한 데모 페이지를 제공합니다.

Insights

LLM은 말하는 동안 어떻게 듣고 있어야 할까요? 전이중 통신 음성 대화에서 사용자 스트림 라우팅에 대한 연구

요약

핵심 포인트

댓글

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인