VitaBench 2.0: 장기적 사용자 상호작용에서의 개인화 및 주도적 에이전트 평가
요약
VitaBench 2.0은 장기적 상호작용에서 에이전트의 개인화 및 주도적 능력을 평가하는 새로운 벤치마크를 제안합니다. 기존 벤치마크가 간과한 사용자 선호도 추론과 능동적 정보 획득 능력을 중점적으로 측정합니다.
핵심 포인트
- 사용자 선호도를 지속적으로 추출하고 업데이트하는 능력 평가
- 누락된 정보를 능동적으로 획득하는 주도성(Proactiveness) 측정
- 다양한 메모리 아키텍처 비교를 위한 확장 가능한 인터페이스 제공
- 최신 LLM들의 개인화된 의사결정 능력 격차 확인
대규모 언어 모델 (LLMs)은 실제 세계의 작업에서 사용자와 협력하는 상호작용 에이전트 (interactive agents)로 진화했습니다. 이러한 환경에서의 효과적인 협업은 명시적으로 언급된 것 이상으로 사용자를 이해하는 것에 점점 더 의존하게 되는데, 이는 사용자의 의도가 종종 파편화된 일상적 상호작용에 반영되어 있으며 개인화된 모델링 (personalized modeling)과 주도적 상호작용 (proactive interaction)을 모두 필요로 하기 때문입니다. 그러나 기존의 에이전트 벤치마크 (agent benchmarks)는 주로 추론 (reasoning)과 도구 사용 (tool use)을 평가하며, 현실적인 시나리오에서 사용자 선호도를 추론하고 활용하는 과제는 대체로 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 장기적인 사용자 상호작용에서 개인화되고 주도적인 에이전트 행동을 평가하기 위한 벤치마크인 VitaBench 2.0을 소개합니다. VitaBench 2.0에서 작업은 개별 사용자에 대해 시간 순서대로 정렬된 시퀀스 (sequences)로 구성되며, 여기서 선호도는 파편화되고 이질적인 상호작용 속에 내재되어 있습니다. 작업을 성공적으로 완료하려면 에이전트가 이러한 상호작용으로부터 사용자의 선호도를 지속적으로 추출, 활용 및 업데이트해야 합니다. 우리는 더 나아가, 에이전트가 누락된 정보를 인식하고 결정을 내리기 전에 사용자나 환경으로부터 해당 정보를 능동적으로 획득해야 하는 작업을 통해 주도성 (proactiveness)을 평가합니다. 체계적인 분석을 지원하기 위해, 우리는 서로 다른 메모리 아키텍처 (memory architectures) 간의 통제된 비교를 가능하게 하는 확장 가능한 메모리 인터페이스 (memory interface)를 제공합니다. 우리는 다양한 최첨단 독점 모델 및 오픈 소스 LLMs를 벤치마킹합니다. 결과에 따르면, 실제 세계의 개인화는 최첨단 모델들에게조차 여전히 매우 도전적인 과제이며, 현재의 능력과 실질적인 요구 사항 사이에 상당한 격차가 있음을 보여줍니다. 광범위한 분석을 통해 실제 개인화된 의사결정 상황에서 현재 에이전트들의 실패 모드 (failure modes)와 능력 병목 현상 (capability bottlenecks)을 추가로 밝혀내어, 향후 모델 개선을 위한 통찰력을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기