EComAgentBench: 분산된 숨겨진 의도를 가진 장기 과제(Long-Horizon Tasks)에서의 쇼핑 에이전트 벤치마킹
요약
LLM 기반 쇼핑 에이전트의 장기 과제 수행 능력을 평가하기 위한 새로운 벤치마크인 EComAgentBench를 소개합니다. 실제 Amazon 데이터를 기반으로 분산된 사용자 의도를 파악하고 제품을 결정하는 능력을 측정합니다.
핵심 포인트
- 분산된 요구사항(쿼리, 프로필, 명확화 과정)을 포함한 662개 태스크 구성
- 에이전트가 숨겨진 의도를 파악하고 도구 호출을 통해 제품을 결정하는 능력 평가
- 실험 결과, 최상위 모델도 전체 정확도가 57.1%에 머무는 한계 확인
- 실패 원인을 특정 요구사항과 출처에 귀속시키는 정교한 루브릭 제공
LLM 기반 쇼핑 에이전트가 실제 서비스 단계로 진입함에 따라, 기존의 벤치마크들은 쇼핑객의 요구사항이 어떻게 전달되는지를 포착하지 못하고 있습니다. 요구사항은 쿼리(query)에 암시적으로 명시되거나, 프로필(profile)에 기록되거나, 혹은 적절한 질문이 던져졌을 때만 드러나기도 합니다. 의도를 사전에 모두 공개하고 최종 선택만을 평가하는 벤치마크는 이러한 장기적 과제(long-horizon challenge)를 제시할 수 없으며, 에이전트가 어떤 요구사항을 놓쳤는지 설명할 수도 없습니다. 이러한 격차를 해소하기 위해, 우리는 실제 Amazon 제품과 리뷰를 기반으로 한 662개의 태스크로 구성된 벤치마크인 EComAgentBench를 소개합니다. 각 태스크는 이러한 요구사항들을 가시적인 쿼리, 도구로 제한된(tool-gated) 프로필, 그리고 스크립트된 명확화(clarification) 과정에 분산시켜 놓았습니다. 에이전트는 숨겨진 의도를 파악하고, 속성 및 리뷰 증거를 바탕으로 후보군을 검증하며, 100회의 도구 호출(tool calls) 이내에 단일 제품을 결정해야 합니다. 또한, 유형화되고 출처가 태그된 루브릭(rubrics)이 모든 태스크를 평가하며, 각 실패를 특정 요구사항과 그 출처에 귀속시킵니다. 구축 과정은 자동화되어 있으면서도 신뢰할 수 있으며, 모든 정답은 텍스트가 생성되기 전에 코드에 고정되고 모든 샘플은 검증을 거칩니다. 7개의 모델을 평가한 결과, 가장 강력한 모델조차 전체 정확도가 57.1%에 불과하며, 루브릭 만족도는 가시적인 출처에서 숨겨진 출처로 갈수록 저하됨을 확인했습니다. 종합적으로, 우리는 EComAgentBench가 쇼핑 에이전트를 단일 쿼리 검색을 넘어 장기적인 관점에서의 신뢰할 수 있는 보조 도구로 발전시키기 위한 재현 가능한 토대 역할을 할 것이라고 믿습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기