arXiv논문2026. 06. 01. 12:03

DOA: SpeechLLM을 활용한 장문 동시 번역을 위한 학습이 필요 없는 디코더 전용 어텐션 (Decoder-Only Attention)

요약

SpeechLLM의 디코더 전용 아키텍처를 활용하여 별도의 학습 없이 장문 동시 음성-텍스트 번역을 수행하는 DOA(Decoder-Only Attention) 기술을 제안합니다. 셀프 어텐션에서 프록시 정렬 신호를 도출하여 저지연 스트리밍 번역을 가능하게 합니다.

핵심 포인트

학습이 필요 없는 디코더 전용 어텐션(DOA) 제안
셀프 어텐션을 통한 프록시 정렬 신호 도출
Phi4-Multimodal 및 Qwen3-Omni에서 성능 검증
재학습 없이 오프라인 디코딩 수준의 품질 구현

동시 음성-텍스트 번역 (Simultaneous speech-to-text translation, SimulST)은 음성이 아직 진행 중인 동안 번역을 생성하며, 언제 읽고 언제 쓸지를 결정하는 스트리밍 정책 (streaming policy)을 필요로 합니다. 최첨단 방식들은 교차 어텐션 (cross-attention)이 명시적인 정렬 신호 (alignment signals)를 제공하는 어텐션 기반 인코더-디코더 (encoder-decoder) 모델에 의존합니다. 이와 대조적으로, Speech Large Language Models (SpeechLLMs)는 오로지 셀프 어텐션 (self-attention)에만 의존하는 디코더 전용 (decoder-only) 아키텍처입니다. 이는 핵심적인 질문을 제기합니다: 디코더의 셀프 어텐션이 스트리밍 정책을 안내할 수 있을 만큼 충분히 안정적인 정렬 신호를 포함하고 있는가? 또한, 기존 방식들은 일반적으로 학습 기반의 적응 (training-based adaptations)이나 휴리스틱한 wait-$k$ 정책에 의존하며, 장문 (long-form) 환경에서는 검증되지 않았습니다. 이러한 공백을 메우기 위해, 우리는 셀프 어텐션으로부터 프록시 정렬 (proxy alignment)을 도출함으로써 기성 SpeechLLM으로 장문 동시 번역을 가능하게 하는 학습이 필요 없는 정책인 Decoder-Only Attention (DOA)을 제안합니다. Phi4-Multimodal 및 Qwen3-Omni에 대한 실험 결과, DOA는 스트리밍 결정을 지원하기 위한 효과적인 정렬 신호를 제공하며, 재학습 없이도 오프라인 디코딩 (offline decoding)에 근접한 품질로 저지연 장문 SimulST를 가능하게 함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

DOA: SpeechLLM을 활용한 장문 동시 번역을 위한 학습이 필요 없는 디코더 전용 어텐션 (Decoder-Only Attention)

요약

핵심 포인트

댓글