StreamProfileBench: 실제 스트리밍 시나리오에서의 세밀한 사용자 프로파일 추론을 위한 벤치마크
요약
정적인 데이터 중심의 기존 평가 방식을 넘어, 실시간 UGC 유입에 대응하는 스트리밍 사용자 프로파일링 벤치마크인 StreamProfileBench를 제안합니다. 12만 개 이상의 실제 데이터를 통해 LLM이 사용자의 관심사 변화를 얼마나 잘 추적하는지 평가합니다.
핵심 포인트
- 연속적인 상태 유지를 위한 스트리밍 프로파일링 프레임워크 제안
- 5개 플랫폼, 7,000명 이상의 실제 사용자 데이터셋 구축
- LLM이 관심사 쇠퇴를 인식하지 못하는 보수적 편향 확인
- 추가 어노테이션이 필요 없는 새로운 평가 방식 도입
대규모 언어 모델 (LLMs)은 사용자 프로파일링 (User Profiling)의 형태를 재편하였으나, 현재의 평가 방식은 주로 정적인 데이터 스냅샷 (Static Data Snapshots)에 집중되어 있습니다. 이러한 패러다임은 사용자 생성 콘텐츠 (UGC)가 지속적으로 유입되고 세밀한 프로파일이 빠르게 진화하는 개인화 시스템의 현실을 간과합니다. 이러한 격차를 해소하기 위해, 우리는 세밀한 스트리밍 사용자 프로파일링 (Streaming User Profiling)을 위한 대규모 벤치마크인 StreamProfileBench를 소개합니다. 우리는 스트리밍 사용자 프로파일링을 연속적인 상태 유지 (Continuous State Maintenance) 작업으로 공식화하였으며, 5개의 다양한 플랫폼에 걸친 7,000명 이상의 실제 사용자가 생성한 120,000개 이상의 UGC 게시물로 구성된 매우 실제적인 데이터셋을 큐레이션하였습니다. 사용자 관심사의 시간적 상관관계 (Temporal Correlation)를 활용하여, 우리는 추가적으로 어노테이션이 필요 없는 (Annotation-free) 새로운 평가 프레임워크를 제안합니다. 14개의 주요 LLMs를 대상으로 한 광범위한 실험 결과, 연속적인 프로파일 업데이트는 여전히 해결되지 않은 과제로 남아 있음을 보여줍니다. 모델들은 과거의 관심사를 과도하게 유지하면서 관심사 쇠퇴 (Interest Decay)를 인식하지 못하는 체계적인 보수적 편향 (Conservative Bias)을 나타냅니다. 절제 연구 (Ablation Experiments)를 통해 스트리밍 패러다임의 실질적인 유용성과 필요성을 추가로 검증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기