arXiv논문2026. 06. 12. 12:31

LLM 기반 병렬 텍스트 생성을 통한 저지연 실시간 오디오 게임 해설 시스템

요약

본 시스템은 라이브 게임플레이 비디오를 기반으로 저지연 실시간 오디오 해설을 생성하는 엔드투엔드 솔루션을 제시합니다. 기존의 순차적 파이프라인에서 발생하는 긴 대기 시간 문제를 해결하기 위해, 음성 재생과 텍스트 생성을 병렬로 처리하고 여러 후보 발화를 미리 버퍼링하여 즉각적인 합성이 가능하게 했습니다.

핵심 포인트

병렬 설계를 통해 평균 침묵 시간을 9.6초에서 0.3초로 대폭 감소시켰습니다.
전문적인 말하기-침묵 타이밍 패턴 유사성을 40% 이상 향상했습니다.
사용자 연구를 통해 인지된 해설의 리듬감이 현저히 개선되었음을 확인했습니다.

저희는 라이브 게임플레이 비디오로부터 음성 해설을 직접 생성하는 저지연 실시간 오디오 게임 해설 시스템을 제시합니다. 이 엔드투엔드(end-to-end) 설정에서 주요 병목 현상은 누적되는 대기 시간입니다. 기존 파이프라인은 각 발화에 대해 프레임을 캡처하고, 텍스트를 생성하며, 음성을 순차적으로 합성하기 때문에, 음성 재생이 완료될 때까지 다음 생성을 요청하지 않습니다. 이러한 엄격한 순차성은 발화 사이에 길고 부자연스러운 침묵을 유발합니다. 이 지연 병목 현상을 해결하기 위해, 저희 시스템은 음성 재생과 동시에 텍스트 생성을 실행하고 여러 후보 발화를 미리 버퍼링하여, 재생 경계에서 즉각적인 합성을 가능하게 합니다. 빠른 속도의 게임 비디오에 대한 실험 결과, 저희의 병렬 설계는 순차적 기준선(sequential baselines) 대비 평균 발화 간 침묵 시간을 9.6초에서 0.3초로 줄였습니다. 또한 전문적인 말하기-침묵 타이밍 패턴과의 유사성을 40% 이상 향상시켰으며, 120명의 숙련된 게임 플레이어와 진행한 사용자 연구를 통해 현저하게 개선된 인지된 말하는 리듬을 확인했습니다. 저희 데모 비디오는 다음에서 확인할 수 있습니다: https://youtu.be/pmrRUlvav8M.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 기반 병렬 텍스트 생성을 통한 저지연 실시간 오디오 게임 해설 시스템

요약

핵심 포인트

댓글