TinyGiantALM: 자원 제약 환경에서의 의도 인지 추론을 위한 소형 오디오-언어 모델
요약
자원 제약 환경을 위해 설계된 1.5B 규모의 소형 오디오-언어 모델 TinyGiantALM을 소개합니다. Query-guided Projector와 Semantic Gating을 통해 사용자 의도에 맞춘 특징 정제 프레임워크를 제안합니다. MMAR 벤치마크에서 7B-13B 규모의 모델을 능가하는 성능을 입증했습니다.
핵심 포인트
- 1.5B 규모의 효율적인 소형 오디오-언어 모델 제안
- Query-guided Projector를 통한 의도 인지 특징 정제
- MMAR 벤치마크에서 기존 7B-13B 모델 대비 우수한 성능 달성
- 엣지 디바이스 배포를 위한 실질적인 구조적 정밀함 제공
현재 오디오 추론 (Audio Reasoning)의 발전은 거대한 대규모 오디오-언어 모델 (LALMs)에 의존하고 있으며, 이는 자원이 제한된 환경에서의 배포를 저해합니다. 우리는 효율성에 중점을 둔 1.5B 규모의 소형 대안인 TinyGiantALM을 소개합니다. 무차별적인 규모 확장 (brute-force scaling) 대신, 우리는 사용자 의도에 따라 음향 신호를 필터링하는 Query-guided Projector 및 Semantic Gating을 사용하는 지시어 인지 특징 정제 (Instruction-Aware Feature Refinement) 프레임워크를 제안합니다. MMAR 벤치마크에서 TinyGiantALM은 46.4%의 제로샷 (zero-shot) 정확도를 달성하며, 7B-13B 규모의 베이스라인 모델들을 크게 능가했습니다. 30B 이상의 모델과 비교했을 때 논리적 서사 (logical narrative) 측면에서의 추론 격차가 남아 있고, 지나치게 밀집되거나 공간적인 장면에서 특정 트레이드오프 (trade-offs)가 존재하지만, 우리의 접근 방식은 혼합 모달리티 (mixed-modality) 환경을 분리하는 데 있어 최대 8배 더 큰 모델들을 눈에 띄게 앞섭니다. 이러한 연구 결과는 구조적 정밀함이 엣지 친화적인 (edge-friendly) 규모에서 견고한 인지 능력을 확보할 수 있는 실질적인 경로를 제공함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기