AuRA: LoRA를 통한 LLM 내 오디오 이해 능력의 내재화
요약
AuRA는 LoRA와 레이어별 증류(layer-wise distillation)를 활용하여 LLM에 오디오 이해 능력을 내재화하는 새로운 방법론을 제시합니다. 기존의 계층적 ASR-LLM 방식의 지연 시간과 비용 문제를 해결하며, 사전 학습된 모델을 재사용하여 효율적인 엔드 투 엔드 추론을 가능하게 합니다.
핵심 포인트
- LoRA와 레이어별 증류를 통한 경량 오디오 임베딩 기술
- ASR 인코더의 표현력을 LLM의 은닉 상태로 정렬
- 기존 계층적/브릿지 방식 대비 낮은 지연 시간과 높은 효율성
- 대규모 멀티모달 학습 없이도 우수한 벤치마크 성능 달성
최근 대규모 언어 모델 (LLMs)을 음성 입력으로 확장하려는 노력은 일반적으로 계층적 ASR-LLM 파이프라인, 엔드 투 엔드 (end-to-end) 음성-언어 모델, 또는 브릿지/증류 (bridge/distillation) 기반 적응에 의존합니다. 이러한 경로들은 각각 강력한 사전 학습된 구성 요소를 재사용하거나, 네이티브 음성-언어 상호작용을 가능하게 하거나, 경량화된 적응을 제공하지만, 전사 인터페이스 지연 (transcript-interface latency), 비용이 많이 드는 멀티모달 (multimodal) 학습, 또는 순차적인 음성-언어 결합 문제로 어려움을 겪는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 오디오 인코딩 능력을 LLM으로 증류하는 방법인 AuRA를 제시합니다. 구체적으로, AuRA는 경량 오디오 임베딩 레이어를 통해 동일한 음성 입력을 ASR 인코더 (교사 모델 역할)와 LoRA로 적응된 LLM (학생 모델 역할)에 공급하며, 레이어별 증류 (layer-wise distillation)를 사용하여 학생 모델의 은닉 상태 (hidden states)를 해당 교사 모델의 표현 (representations)과 정렬함으로써, 음성 표현을 경량화된 LLM 측 적응 기술로 내재화합니다. 계층적 방식 및 직렬 브릿지 방식과 비교하여, AuRA는 더 긴밀한 음성-언어 공동 모델링 (joint modeling)과 효율적인 병렬 엔드 투 엔드 추론을 가능하게 하며, 대규모 멀티모달 학습을 요구하는 대신 사전 학습된 음성 및 언어 모델을 재사용합니다. 여러 음성-언어 벤치마크에서 AuRA는 효과와 효율성 측면 모두에서 계층적 시스템, 음성-LLM 적응 베이스라인, 그리고 대규모 음성-언어 및 멀티모달 모델을 지속적으로 능가합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기