arXiv논문2026. 06. 03. 11:30

AlignAtt4LLM: IWSLT 2026 동시 음성 번역 태스크를 위한 Decoder-Only LLM용 빠른 AlignAtt

요약

AlignAtt4LLM은 Decoder-only LLM을 활용하여 IWSLT 2026 동시 음성 번역을 수행하는 새로운 시스템입니다. 인코더-디코더 구조 없이도 프롬프트 내 소스 스팬과 정렬 헤드 등을 통해 저지연 번역 성능을 구현했습니다.

핵심 포인트

Decoder-only LLM에 AlignAtt를 적용한 첫 사례
Qwen3-ASR과 Gemma-4를 결합한 동기식 캐스케이드 구조
소스 스팬 프롬프트 및 정렬 헤드 활용으로 정책 복구
유럽어 대상 언어에서 기존 베이스라인 대비 우수한 저지연 성능

우리는 영어에서 독일어, 이탈리아어, 중국어로의 IWSLT 2026 동시 음성 번역 (simultaneous speech translation) 시스템인 AlignAtt4LLM에 대해 설명합니다. 이 시스템은 동기식 캐스케이드 (synchronous cascade) 구조로 이루어져 있습니다: 강제 정렬 (forced alignment) 기능이 포함된 Qwen3-ASR이 점진적으로 업데이트되는 소스 전사 (source transcript)를 생성하며, Gemma-4 E4B-it는 MT 측의 AlignAtt 정책에 따라 해당 접두사 (prefix)를 번역합니다. 우리가 알기로는, 이는 AlignAtt를 Decoder-only LLM에 적용한 첫 번째 사례로, 이전 AlignAtt 시스템에서 사용되었던 인코더-디코더 교차 주의 집중 (encoder-decoder cross-attention) 메커니즘이 존재하지 않는 환경입니다. 우리는 다음을 제안함으로써 사용 가능한 정책을 복구합니다: (1) 프롬프트 내의 명시적인 소스 스팬 (source span), (2) 번역 특화 정렬 헤드 (alignment heads)의 오프라인 선택, (3) draft-to-source 어텐션 블록의 선택적 qk-fast 리플레이 (qk-fast replay), (4) 모델 출력을 비트 단위로 동일하게 유지하는 런타임 쿼리/키 캡처 (query/key capture). IWSLT 2026 개발 데이터셋에서 AlignAtt4LLM은 유럽 대상 언어인 영어-독일어 및 영어-이탈리아어에 대해, 약 2초 내외의 저지연 (low-latency) 영역과 4초 미만의 고지연 (high-latency) 영역인 CU-LongYAAL 모두에서 제공된 베이스라인 (baselines)보다 우수한 성능을 보였습니다. 영어-중국어 결과는 다소 엇갈리지만, 이 방법은 Gemma-4에 국한되지 않습니다. AlignAtt4LLM은 결정론적 프롬프트 레이아웃 (deterministic prompt layout), 보정된 어텐션 헤드 (calibrated attention heads), 그리고 쿼리/키 캡처만을 요구하기 때문에, 동일한 정책을 비유럽권 대상 언어를 위한 더 강력한 번역 중심의 Decoder-only MT 백본 (backbones)에 재적용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

AlignAtt4LLM: IWSLT 2026 동시 음성 번역 태스크를 위한 Decoder-Only LLM용 빠른 AlignAtt

요약

핵심 포인트

댓글