Claw-Anything: 사용자의 디지털 세계에 대한 광범위한 접근을 통한 상시 가동형 개인 비서 벤치마킹
요약
상시 가동형 개인 비서의 성능을 평가하기 위한 새로운 벤치마크인 Claw-Anything을 소개합니다. 장기 활동 이력, 백엔드 서비스, GUI/CLI 상호작용을 포함한 광범위한 문맥을 통해 에이전트의 추론 능력을 검증합니다.
핵심 포인트
- 광범위한 디지털 문맥을 반영한 Claw-Anything 벤치마크 제안
- 장기 이력 및 다중 장치 상호작용을 통한 현실적 노이즈 시뮬레이션
- GPT-5.5의 낮은 pass@1 기록을 통해 현재 에이전트의 한계 지적
- 모델 성능을 23.7% 향상시키는 자동화된 데이터 생성 파이프라인 공개
대규모 언어 모델 (LLM) 에이전트는 사용자의 디지털 세계에서 관련된 모든 것에 접근할 수 있는 상시 가동형 (always-on) 개인 비서로 점점 더 구상되고 있습니다. 그러나 현재의 시스템은 해당 세계의 좁은 부분만을 대상으로 작동하여, 문맥 민감형 추론 (context-sensitive reasoning)과 효과적인 보조를 제한하고 있습니다. 기존의 벤치마크 (benchmarks) 역시 부분적인 사용자 상태만을 제공하므로, 이처럼 광범위한 상시 가동 환경에서의 성능을 포착하는 데 실패합니다. 이러한 격차를 해소하기 위해, 우리는 에이전트의 문맥을 세 가지 차원, 즉 장기적 활동 이력 (long-horizon activity histories), 상호 의존적인 백엔드 서비스 (interdependent backend services), 그리고 여러 장치에 걸친 통합된 GUI 및 CLI 상호작용을 따라 확장하는 벤치마크인 Claw-Anything을 소개합니다. 이 환경을 구현하기 위해, 우리는 다회차 이벤트 주입 (multi-round event injection)을 통해 수개월간의 사용자 활동을 시뮬레이션하여, 복잡한 세계 상태와 무관한 이벤트 및 상충하는 신호를 포함한 현실적인 노이즈 (noise)를 생성합니다. 에이전트는 이러한 노이즈에 대해 견고함을 유지하면서 풍부한 문맥 환경에 대해 추론해야 합니다. 이러한 확장된 범위는 또한 에이전트가 사용자의 요구를 예측하고 적시에 권장 사항을 제공해야 하는 선제적 보조 (proactive assistance)의 평가를 가능하게 합니다. 실험 결과, GPT-5.5는 이전 벤치마크보다 현저히 낮은 34.5%의 pass@1을 기록하였으며, 이는 현재 에이전트의 능력과 상시 가동형 개인 비서의 요구 사항 사이에 격차가 있음을 강조합니다. 벤치마크와 더불어, 우리는 2,000개의 학습 환경을 생성하고 베이스 모델을 23.7% 향상시키는 자동화된 데이터 생성 파이프라인을 공개하여, 확장 가능한 데이터 인프라로서의 유용성을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기