당신은 나의 언어를 말하고 있나요? 멀티모달 LLM에서의 음성 언어 준수(Spoken Language Adherence)에 대하여
요약
멀티모달 LLM 기반 ASR에서 발생하는 언어 준수(Language Adherence) 문제를 정의하고, 이를 해결하기 위한 소프트 프롬프팅 접근 방식을 제안합니다. 제로샷 프롬프팅, SFT, CoT 추론 등 세 가지 완화 전략의 효과를 비교 분석합니다.
핵심 포인트
- 멀티모달 LLM의 음성 언어 준수 결여 문제 정의
- 언어 위반을 정량화하기 위한 새로운 지표 도입
- 제로샷, SFT, CoT를 활용한 세 가지 완화 전략 제안
- ASR 성능 유지와 언어 위반 감소 간의 트레이드오프 분석
대규모 언어 모델 (LLM) 기반의 자동 음성 인식 (ASR)은 원활한 다국어 사용을 가능하게 하지만, 모델이 출력 언어를 잘못 식별하는 경우가 빈번하여 전사 충실도 (transcription fidelity)와 다운스트림 애플리케이션의 품질을 저해하곤 합니다. 유연성과 코드 스위칭 (code-switching) 능력을 보존하기 위해, 우리는 출력을 엄격하게 제한하지 않으면서 잠재적인 음성 언어를 암시하는 소프트 프롬프팅 (soft prompting) 접근 방식을 제안합니다. 우리는 이 문제를 언어 준수 (language adherence)의 결여로 공식적으로 정의하고, 위반 사항을 정량화하기 위한 새로운 지표를 도입하며, 세 가지 완화 전략을 평가합니다: (1) 불확실성 상황에서 강력한 가이드를 제공하는 제로샷 프롬프팅 (zero-shot prompting), (2) 프롬프트 준수 능력을 향상시키기 위한 지도 미세 조정 (SFT), (3) 디코딩 과정에서 준수를 강제하기 위한 사고 사슬 (CoT) 추론. 우리는 여러 언어에 걸쳐 이러한 방법들을 비교 분석하여, 전체적인 ASR 성능을 유지하면서 언어 위반을 줄이는 데 있어 각 방법의 효과를 평가합니다. 마지막으로, 다양한 컴퓨팅 제약 조건 하에서 전략 선택을 돕기 위한 트레이드오프 (trade-offs)를 논의합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기