MAF: MLLM을 이용한 감성 분석을 위한 멀티모달 적응형 퓨샷 프롬프팅 (Multimodal Adaptive Few-shot
요약
MLLM의 감성 분석 성능을 높이기 위해 동적으로 예시를 검색하고 통합하는 MAF 프레임워크를 제안합니다. 얼굴 표정, 장면 문맥, 텍스트를 통합 인코딩하며, 질의 조건부 융합 가중치를 통해 최적의 퓨샷 예시를 검색하여 추론 능력을 극대화합니다.
핵심 포인트
- 질의에 따라 동적으로 예시를 검색하는 MAF 프레임워크 제안
- 얼굴 표정, 장면 문맥, 텍스트 의미론을 통합하는 검색 모듈 구축
- 경량 계수 생성 네트워크를 통한 실시간 질의 조건부 가중치 융합
- 다수결 투표 방식을 도입하여 MLLM의 예측 안정성 향상
- 기존 백본 모델 및 베이스라인 대비 우수한 감성 분석 성능 입증
멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 복잡한 멀티모달 콘텐츠를 이해하는 데 있어 놀라운 능력을 입증해 왔습니다. 그러나 감성 분석 (Sentiment Analysis)에서의 성능은 프롬프트 설계 (Prompt Design)에 매우 민감하게 반응하며, 이로 인해 정적이고 일률적으로 적용되는 프롬프트는 입력값에 따라 달라지는 미묘한 멀티모달 단서들을 포착하는 데 본질적으로 최적화되지 못하는 한계를 보입니다. 이러한 한계를 해결하기 위해, 우리는 질의와 관련된 예시(Demonstrations)를 동적으로 검색하고 통합하여 문맥에 민감한 방식으로 MLLM의 감성 추론 능력을 이끌어내는 멀티모달 적응형 퓨샷 프롬프팅 (Multimodal Adaptive Few-Shot Prompting, MAF) 프레임워크를 제안합니다. MAF는 얼굴 표정, 장면 문맥(Scene Context), 그리고 텍스트 의미론 (Textual Semantics)을 총체적으로 인코딩하는 예시 검색 모듈을 구축하며, 다인원 시나리오에서 정확한 화자 식별을 위해 입술 움직임 진폭 탐지 (Lip Movement Amplitude Detection) 메커니즘을 도입했습니다. 기존의 고정 가중치 융합 (Fixed-weight Fusion) 방식에서 벗어나, 질의 조건부 융합 가중치 (Query-conditioned Fusion Weights)를 실시간으로 출력하도록 학습된 경량 계수 생성 네트워크 (Lightweight Coefficient Generation Network)를 통해 멀티모달 유사도 점수의 가중 합산 (Weighted Aggregation)을 가능하게 함으로써 가장 정보량이 많은 상위 K개의 예시를 검색합니다. 예측 안정성은 MLLM에 의해 생성된 여러 후보 출력값에 대한 다수결 투표 (Majority Voting)를 통해 더욱 향상됩니다. 공개 벤치마크 데이터셋에 대한 광범위한 실험 결과, MAF는 대응하는 백본 (Backbone) 변형 모델들보다 상당하고 일관된 성능 향상을 달성하였으며, 강력한 멀티모달 감성 분석 베이스라인 (Baselines) 모델들과 비교해도 경쟁력 있는 성능을 유지함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기