본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 18. 20:02

ShopGym: 이커머스 웹 에이전트의 현실적 시뮬레이션 및 확장 가능한 벤치마킹을 위한 통합 프레임워크

요약

ShopGym은 이커머스 웹 에이전트의 성능을 현실적이면서도 제어 가능한 환경에서 평가하기 위해 개발된 통합 프레임워크입니다. 실제 상점의 구조를 독립적인 샌드박스로 변환하는 ShopArena와 다양한 벤치마크 작업을 생성하는 ShopGuru를 통해 재현 가능하고 확장 가능한 평가 환경을 제공합니다.

핵심 포인트

  • 기존의 실제 라이브 스토어프런트와 수작업 샌드박스 방식 사이의 트레이드오프 문제를 해결함
  • ShopArena를 통해 실제 상점 사양을 기반으로 독립적이고 검증 가능한 시뮬레이션 환경 구축 가능
  • ShopGuru를 통해 7가지 기술 카테고리에 걸친 다양한 합성 벤치마크 작업 생성
  • 합성 상점이 실제 상점의 구조적 속성을 보존하며, 에이전트 성능 평가 시 실제 환경과 높은 상관관계를 보임을 검증

이커머스 웹 에이전트 (E-commerce web agents)를 개발하고 평가하기 위해서는 의미 있는 작업 구조를 유지하면서도 제어 가능하고, 재현 가능하며, 확장 가능한 과학적 비교를 가능하게 하는 환경이 필요합니다. 기존의 방법론들은 트레이드오프 (tradeoff)를 강요합니다. 실제 라이브 스토어프런트 (live storefronts)는 현실성을 제공하지만 비정상성 (non-stationary)을 띠며, 검사가 어렵고 재현이 불가능합니다. 반면, 수작업으로 구축된 샌드박스 벤치마크 (sandbox benchmarks)는 제어는 가능하지만 레이아웃, 카탈로그, 정책 및 상호작용 패턴의 범위가 좁습니다. 우리는 핵심 병목 현상이 방법론적인 문제라고 주장합니다. 즉, 이 분야에는 현실적이고 다양하며, 제어 가능하고, 검사 가능하며, 재현 가능한 평가 설정을 동시에 구축할 수 있는 확장 가능한 방법이 부족합니다.

이에 우리는 이커머스 웹 에이전트의 현실적인 시뮬레이션과 확장 가능한 벤치마킹을 위한 통합 프레임워크인 ShopGym을 소개합니다. ShopGym은 이커머스 시뮬레이션 환경과 근거 기반의 벤치마크 작업을 구축하기 위한 프레임워크입니다. 시뮬레이션 레이어인 ShopArena는 익명화된 상점 사양과 단계별로 검증된 생성 프로세스를 통해 라이브 시드 스토어프런트 (live seed storefronts)를 독립적인 샌드박스 상점으로 변환합니다. 이러한 시뮬레이션된 스토어프런트 위에서, ShopGuru는 7가지 기술 카테고리에 걸쳐 벤치마크 작업을 합성하며, 각 작업을 상점의 카탈로그, 탐색 구조, 정책 및 상호작용 어포던스 (interaction affordances)에 근거하여 구성합니다. ShopArena와 ShopGuru는 함께 쇼핑 작업과 관련된 구조적 속성 및 에이전트 평가 신호를 보존하는 독립적이고, 재설정 가능하며, 검사 가능하고, 안정적인 평가 아티팩트 (artifacts)를 생성합니다.

우리는 그래프 기반 구조 분석과 6개의 샌드박스 상점(합성 데이터로 구축된 3개 및 실제 데이터로 구축된 3개)에 걸친 224개의 생성된 작업을 통한 에이전트 기반 행동 평가를 통해 이 프레임워크를 검증합니다. 연구 결과, 합성 상점은 라이브 스토어프런트의 주요 구조적 속성을 보존하며, 합성 상점에서의 에이전트 성능은 라이브 스토어프런트에서의 성능과 양의 상관관계를 보임을 확인했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0