대역폭 효율적이고 프라이버시를 보호하는 에지-클라우드 다대다 음성 번역
요약
프라이버시 보호와 대역폭 효율성을 동시에 달성하는 에지-클라우드 협업형 음성 번역 프레임워크 ESRT를 제안합니다. 분할 추론 아키텍처를 통해 음성 데이터 유출을 방지하고, 멀티태스크 학습으로 45개 언어에 대한 뛰어난 다대다 번역 성능을 구현했습니다.
핵심 포인트
- 에지-클라우드 분할 추론으로 대역폭 요구량 10배 감소
- 압축된 중간 특징 전송을 통한 음성 지문 유출 방지
- 멀티태스크 가중 커리큘럼 학습으로 언어 편향 극복
- 45개 언어 대상 SOTA 다대다 S2TT 성능 달성
멀티모달 거대 언어 모델 (MLLMs)은 음성-텍스트 번역 (S2TT) 분야에서 상당한 잠재력을 보여주었습니다. 그러나 기존의 배포 패러다임은 심각한 과제에 직면해 있습니다. 순수 온디바이스 (on-device) 모델은 자원 제약 문제로 어려움을 겪는 반면, 중앙 집중식 클라우드 시스템은 원시 음성 데이터를 전송함으로써 심각한 프라이버시 위험과 대역폭 병목 현상을 초래합니다. 또한, 대부분의 모델은 영어 중심의 편향을 보여 다대다 (many-to-many) 번역 확장을 제한합니다. 본 논문에서는 프라이버시를 보호하고 대역폭 효율적인 협업형 에지-클라우드 MLLM 프레임워크인 ESRT (Edge-cloud Speech Recognition and Translation)를 제안합니다. 구체적으로, 우리는 기기에 경량 음성 인코더 (speech encoder)와 어댑터 (adapter)를 유지하고, 매우 압축된 중간 특징 (intermediate features)만을 클라우드로 전송하는 에지-클라우드 분할 추론 (split inference) 아키텍처를 설계합니다. 이는 음성 지문 (voiceprint) 유출을 근본적으로 방지하고 대역폭 요구 사항을 최대 10배까지 줄여줍니다. 영어 중심의 병목 현상을 극복하기 위해, 우리는 데이터 균형을 맞춘 멀티태스크 가중 커리큘럼 학습 (multi-task weighted curriculum learning) 전략을 도입하여 강력한 교차 언어 일관성을 보장합니다. FLEURS 데이터셋에 대한 광범위한 실험을 통해 우리의 모델인 ESRT-4B와 ESRT-12B가 45개 언어 ($45 imes 44$ 방향)에 대해 최첨단 (state-of-the-art) 다대다 S2TT 성능을 달성함을 입증했습니다. 재현 가능하고 프라이버시를 고려한 MLLM S2TT 연구를 촉진하기 위해 코드와 모델을 공개합니다. 코드와 모델은 https://github.com/yxduir/esrt 에서 공개됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기