비동기식 비디오 인터뷰(AVI)에서의 성격 및 인지 능력 평가를 위한 동결된 멀티모달 임베딩 (Frozen Multimodal
요약
ACM Multimedia AVI Challenge 2026을 위한 비동기식 비디오 인터뷰 기반 성격 및 인지 능력 예측 솔루션을 제안합니다. CLIP, Whisper, RoBERTa 등 사전 학습된 모델을 미세 조정 없이 사용하는 동결된 멀티모달 인코더 방식을 통해 소규모 샘플 환경에서의 성능을 입증했습니다.
핵심 포인트
- 동결된 멀티모달 인코더를 활용한 소규모 샘플 표현 학습 방식 제안
- 성격 특성 예측(Track 1)에서 베이스라인 대비 MSE 19.1% 개선 달성
- 인지 능력 분류(Track 2)에서 공식 베이스라인을 상회하는 성능 기록
- 인지 능력 예측 시 데이터셋 내 피험자-속성 지름길(Shortcut) 주의 필요성 강조
비동기식 비디오 인터뷰(Asynchronous Video Interviews, AVIs)로부터 심리적 특성을 예측하는 것은 라벨링된 데이터셋이 제한적인 반면, 각 응답에는 고차원의 시각적, 음향적, 언어적 신호가 포함되어 있기 때문에 도전적인 멀티모달 학습 (Multimodal Learning) 문제입니다. 본 논문은 두 가지 과제를 평가하는 ACM Multimedia AVI Challenge 2026에 대한 우리의 솔루션을 제시합니다. Track 1은 성격 관련 인터뷰 응답으로부터 자기 보고식 HEXACO 성격 특성을 예측하며, Track 2는 구조화된 AVI 응답으로부터 인지 능력 수준을 분류합니다. 우리는 이 문제를 소규모 샘플 표현 학습 (Small-sample Representation Learning) 과제로 취급합니다. 거대한 사전 학습된 모델을 미세 조정 (Fine-tuning) 하는 대신, 시각적 특징을 위한 CLIP, 음향 특징 및 전사(Transcripts)를 위한 Whisper, 그리고 텍스트 표현을 위한 RoBERTa, E5, DeBERTaV3를 포함한 동결된 멀티모달 인코더 (Frozen Multimodal Encoders)를 사용한 후 저용량의 다운스트림 모델 (Downstream Models)을 연결합니다. Track 1의 경우, 우리의 특성별 회귀 (Trait-specific Regression) 및 후기 결합 (Late-fusion) 시스템은 평균 검증 MSE 0.2696을 달성하여 공식 베이스라인인 0.3334를 개선했습니다. 절제 연구 (Ablation) 결과에 따르면 글로벌 모델 (0.3189)에서 특성별 모델링 (0.2871), 그리고 특성별 후기 결합 (0.2696)으로 이어지는 3단계의 개선을 보였으며, 이는 공식 베이스라인 대비 19.1%의 상대적 MSE 감소에 해당합니다. Track 2의 경우, 컴팩트한 피험자-속성 (Subject-attribute) 베이스라인이 0.5781의 정확도에 도달했고, 우리의 멀티모달 앙상블 (Multimodal Ensemble)은 0.5313에 도달하여 둘 다 공식 베이스라인인 0.4062를 상회했습니다. 우리는 이 결과를 AVI 콘텐츠로부터의 견고한 인지 추론이라기보다, 검증 분할 (Validation Split) 내에 존재할 수 있는 피험자-속성 지름길 (Subject-attribute Shortcuts)의 증거로 해석합니다. 전반적으로, 우리의 연구 결과는 AVI 기반의 심리 평가가 특성별 멀티모달 모델링을 통해 이득을 얻을 수 있지만, 인지 능력 예측은 데이터셋 지름길에 대한 세심한 제어가 필요함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기