arXiv논문2026. 05. 01. 14:06

Claw-Eval-Live: 진화하는 현실 세계 워크플로우를 위한 라이브 에이전트 벤치마크

요약

Claw-Eval-Live는 LLM 에이전트를 진화하는 현실 세계 워크플로우에 맞춰 평가하기 위해 설계된 라이브 벤치마크입니다. 기존의 정적인 벤치마크가 가진 한계를 극복하고, 공개된 워크플로우 수요 신호를 통해 지속적으로 업데이트되는 '리프레시 가능한' 구조를 갖추고 있습니다. 이 벤치마크는 실행 트레이스, 감사 로그 등 상세한 증거 기록을 요구하며, 실제 작업 완료 여부를 엄격하게 검증하여 에이전트의 실질적인 자동화 능력을 측정합니다. 실험 결과에 따르면, 신뢰할 수 있는 워크플로우 자동화는 여전히 어려운 과제이며, 선두 모델조차도 모든 작업을 성공적으로 처리하지 못했습니다. 특히 HR 및 관리와 같은 복잡한 다중 시스템 비즈니스 워크플로우에서 지속적인 병목 현상이 발견되었으며, 이는 에이전트 평가가 단순한 성능 지표를 넘어 실제 외부 수요 변화에 대응하고 검증 가능한 행동을 측정해야 함을 시사합니다.

핵심 포인트

Claw-Eval-Live는 공개된 워크플로우 수요 신호를 활용하여 지속적으로 업데이트되는 라이브 벤치마크입니다.
단순한 최종 응답 평가를 넘어, 실행 트레이스, 감사 로그 등 상세하고 검증 가능한 증거(evidence) 기반의 평가 방식을 채택했습니다.
실험 결과는 복잡한 비즈니스 워크플로우 자동화가 여전히 해결되지 않은 과제임을 명확히 보여줍니다.
에이전트 평가는 정적인 작업 세트가 아닌, 외부 수요 변화와 검증 가능한 행동이라는 두 가지 축을 기반으로 해야 합니다.

LLM 에이전트는 소프트웨어 도구, 비즈니스 서비스, 그리고 로컬 워크스페이스를 가로지르는 엔드투엔드 단위 작업을 완료할 것으로 기대됩니다. 그러나 많은 에이전트 벤치마크는 출시 시점에 큐레이션된 작업 세트를 고정시키고 주로 최종 응답만을 평가하여, 에이전트를 진화하는 워크플로우 수요에 맞춘 평가나 작업이 실제로 실행되었는지 확인하는 데 어려움을 겪습니다. 우리는 공개된 워크플로우-수요 신호를 통해 업데이트되는 리프레시 가능한 신호 레이어와, 재현 가능하며 타임스탬프가 적용된 출시 스냅샷을 분리한 워크플로우 에이전트를 위한 라이브 벤치마크인 Claw-Eval-Live 를 소개합니다. 각 릴리스는 공개 워크플로우-수요 신호로 구성되며, 현재 릴리스에서 사용되는 ClawHub Top-500 스킬과 함께 고정된 피처, 서비스, 워크스페이스, 그리고 그레이더를 갖춘 제어된 작업으로 구체화됩니다. 평가에는 실행 트레이스, 감사 로그, 서비스 상태, 그리고 실행 후 워크스페이스 아티팩트를 기록하며, 증거가 충분할 때는 결정론적 검사를 사용하고 의미론적 차원에만 구조화된 LLM 판정을 사용합니다. 이 릴리스는 제어된 비즈니스 서비스와 로컬 워크스페이스 수리를 아우르는 105 개의 작업을 포함하며, 공유된 공개 패스 규칙 하에 13 개의 최첨단 모델을 평가합니다. 실험 결과, 신뢰할 수 있는 워크플로우 자동화는 여전히 해결되지 않은 과제임을 보여줍니다: 선두 모델조차도 작업의 66.7% 만 통과했으며, 어느 모델도 70% 를 달성하지 못했습니다. 실패는 작업 패밀리와 실행 표면에 따라 구조화되어 있으며, HR, 관리, 다중 시스템 비즈니스 워크플로우는 지속적인 병목 현상이 되고 로컬 워크스페이스 수리는 상대적으로 쉽지만 포화 상태에 도달하지 않았습니다. 리더보드 순위만으로는 부족합니다. 유사한 통과율을 가진 모델이라도 전체 완료도에서 차이가 날 수 있으며, 작업 수준의 차별화는 중간 대역의 작업에 집중되어 있습니다. Claw-Eval-Live 는 워크플로우 에이전트 평가는 신선한 외부 수요와 검증 가능한 에이전트 행동이라는 두 가지 기반 위에 이루어져야 함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Claw-Eval-Live: 진화하는 현실 세계 워크플로우를 위한 라이브 에이전트 벤치마크

요약

핵심 포인트

댓글