arXiv논문2026. 05. 15. 16:14

SpeechLLM을 이용한 스트리밍 음성-텍스트 번역

요약

본 연구는 스트리밍 음성-텍스트 번역을 위한 새로운 LLM 기반 아키텍처를 제안합니다. 기존 시스템의 문제점인 느린 속도와 연쇄 오류 문제를 해결하기 위해, 이 모델은 토큰 생성 여부뿐만 아니라 충분한 오디오 입력 확인까지 학습합니다. 실험 결과, 이 시스템은 비스트리밍 방식에 근접한 높은 번역 품질을 유지하면서도 1~2초의 낮은 지연 시간을 달성했습니다.

핵심 포인트

기존 음성-텍스트 번역 시스템은 ASR과 기계 번역 모듈이 분리되어 있어 연쇄 오류가 발생할 수 있습니다.
제안된 SpeechLLM 아키텍처는 스트리밍 방식으로 작동하며, 토큰 생성에 필요한 오디오 입력 여부를 판단하는 기능을 학습합니다.
시스템은 자동 정렬(Automatic Alignments)을 사용하여 학습되며, 다양한 언어 쌍에서 성능이 검증되었습니다.
낮은 지연 시간(1~2초)과 높은 번역 품질을 동시에 달성하여 실제 애플리케이션에 적합합니다.

일반적으로 음성을 텍스트로 번역하는 시스템은 음성 인식 (Speech Recognition)과 텍스트-텍스트 번역 (Text-to-Text Translation)을 위한 별도의 모듈로 구성됩니다. 이러한 작업들을 하나의 SpeechLLM으로 결합하는 것은 음성 내의 준언어적 정보 (Paralinguistic Information)를 활용하고 연쇄 오류 (Cascaded Errors)를 줄일 수 있다는 가능성을 제시합니다. 하지만 기존의 SpeechLLM 시스템은 실제 스트리밍 방식으로 작동하지 않기 때문에 속도가 느립니다. 즉, 번역을 출력하기 전에 오디오의 전체 발화가 완료될 때까지 기다리거나, 실제 애플리케이션에는 적합하지 않은 고정된 간격으로 토큰을 출력합니다. 본 연구는 실제 스트리밍 음성-텍스트 번역을 위한 LLM 기반 아키텍처를 제안합니다. 이 LLM은 단순히 출력 토큰을 생성하는 법뿐만 아니라, 토큰을 생성하기에 충분한 오디오를 확인했는지 여부를 결정하는 법도 학습합니다. 시스템은 입력 음성과 출력 텍스트의 자동 정렬 (Automatic Alignments)을 사용하여 학습됩니다. 다양한 언어 쌍에 대한 실험에서, 이 시스템은 비스트리밍 (Non-streaming) 베이스라인에 근접한 번역 품질을 달성하면서도, 지연 시간 (Latency)은 단 1~2초에 불과합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SpeechLLM을 이용한 스트리밍 음성-텍스트 번역

요약

핵심 포인트

댓글