SocialPersona: 멀티모달 소셜 미디어 문맥을 통한 개인화된 프로파일링 및 응답 벤치마킹
요약
SocialPersona는 멀티모달 소셜 미디어 데이터를 통해 사용자의 선호도를 추론하고 개인화된 응답을 생성하는 능력을 평가하는 새로운 벤치마크입니다. 텍스트와 이미지를 포함한 장기적 타임라인을 활용하여 MLLM의 개인화 성능을 측정합니다.
핵심 포인트
- 멀티모달 데이터를 활용한 사용자 프로파일링 및 응답 벤치마크 제안
- 텍스트, 이미지, 타임스탬프를 포함한 2,597개의 검증된 선호도 태그 활용
- 현재 MLLM은 세밀하고 최신인 관심사 파악 및 개인화 응답 생성에 한계가 있음
- 강력한 교차 모달 및 장기적 사용자 모델링의 필요성 입증
개인화된 언어 모델 어시스턴트(Personalized language-model assistants)는 종종 기억의 관점에서 평가됩니다. 즉, 모델이 대화 중에 사용자가 명시적으로 언급한 선호도를 회상할 수 있는가 하는 점입니다. 더 포괄적인 개인화는 더 어려운 능력, 즉 사용자가 자연스럽게 남긴 멀티모달(Multimodal) 흔적으로부터 사용자가 무엇을 중요하게 여기는지 추론하는 능력을 요구합니다. 우리는 멀티모달 거대 언어 모델(MLLMs)이 장기적인 소셜 미디어 타임라인으로부터 드러난 선호도(revealed preferences)를 복구하고 이를 대화에 사용할 수 있는지 평가하기 위한 벤치마크인 SocialPersona를 소개합니다. 171명의 일상적이고 비상업적인 소셜 미디어 사용자의 장기적 타임라인을 기반으로 구축된 SocialPersona는 텍스트, 이미지, 타임스탬프, 그리고 7개의 관심 영역에 걸쳐 인간이 검증한 2,597개의 선호도 태그를 포함하며, 안정적인 관심사와 최근의 관심사를 구분합니다. 이 벤치마크는 두 가지 작업을 지원합니다: 멀티모달 문맥으로부터 구조화된 사용자 프로필을 구축하는 것과, 추론된 프로필에 부합하는 응답을 생성하는 것입니다. 독점(Proprietary) 및 오픈 웨이트(Open-weight) MLLM을 대상으로 한 실험 결과, 모델들이 광범위한 관심 영역은 식별할 수 있으나, 세밀한(Fine-grained) 관심사와 최근의 관심사에 대해서는 성능이 저하되며, 추론된 프로필을 사용하여 대화를 개인화해야 할 때 성능이 더욱 악화됨을 보여줍니다. 텍스트와 이미지가 상호 보완적인 선호도 신호를 제공한다는 증거와 더불어, 이러한 결과는 강력한 교차 모달(Cross-modal) 및 장기적(Long-horizon) 사용자 모델링이 여전히 핵심 과제로 남아 있음을 나타내며, SocialPersona가 드러난 선호도를 추론하고 이에 따라 행동하는 어시스턴트를 향한 진전을 측정하고 발전시키는 데 도움을 줄 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기