arXiv논문2026. 06. 23. 14:33

PIVOTSBench: 멀티모달 거대 언어 모델(MLLM)의 미세한 대인 관계 추론 능력 평가

요약

멀티모달 거대 언어 모델(MLLM)의 미세한 대인 관계 추론 능력을 평가하기 위한 새로운 벤치마크인 PIVOTS를 소개합니다. Social-IQ 2.0과 YouTube 데이터를 기반으로 구축되었으며, 시각적 단서 활용 능력과 양방향 관계 예측 성능을 분석합니다.

핵심 포인트

MLLM의 사회적 상호작용 및 대인 관계 추론 능력 평가
Social-IQ 2.0 및 YouTube 기반의 PIVOTS 벤치마크 제안
시각적 단서 식별 및 활용을 위한 보조 작업 포함
독점 모델 및 오픈 소스 MLLM에 대한 비교 분석 수행

인간은 일상적인 사회적 상호작용의 핵심인 미세한 대인 관계를 이해하는 타고난 능력을 갖추고 있습니다. 이러한 추론은 본질적으로 멀티모달(multimodal)적이지만, 기존의 멀티모달 거대 언어 모델(MLLMs)에서는 여전히 거의 탐구되지 않은 영역으로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 확립된 심리학 연구에 근거하여 양방향 대인 관계 차원을 예측하는 MLLM의 능력을 평가하기 위해 Social-IQ 2.0과 YouTube 데이터를 기반으로 구축된 최초의 벤치마크인 PIVOTS를 소개합니다. 또한, PIVOTS에는 이러한 예측의 근간이 되는 중요한 시각적 단서(visual cues)를 식별하고 활용하는 모델의 능력을 평가하는 보조 작업(auxiliary tasks)이 포함되어 있습니다. 우리는 독점적(proprietary) 모델과 오픈 소스 MLLM을 모두 평가하였으며, 시각적 양식(visual modalities)과 대화 발화 내의 명시적인 사회적 역할 정보의 효과를 분석하기 위해 상세한 절제 연구(ablation studies)를 수행했습니다. 나아가, 결합(joint) 및 쌍별(pairwise) 예측 설정이 MLLM이 양방향 PIVOTS 차원을 점수화하는 데 어떻게 도움이 되는지 조사합니다. 프로젝트 페이지 및 리소스: https://flynnzhangsx.github.io/PIVOTSBench/ .

AI 자동 생성 콘텐츠

원문 바로가기

PIVOTSBench: 멀티모달 거대 언어 모델(MLLM)의 미세한 대인 관계 추론 능력 평가

요약

핵심 포인트

댓글