ClawMark
요약
ClawMark는 동료 에이전트(coworker agents)의 성능을 측정하기 위해 설계된 살아있는 세계(living-world) 벤치마크입니다. 이 벤치마크는 LLM이 새로운 이메일, 변경된 캘린더, 업데이트된 파일 등 환경이 독립적으로 진화하는 지속 가능한 워크플로우를 여러 날에 걸쳐 처리할 수 있는지 테스트합니다. 이를 통해 에이전트가 다중 모달 증거와 복잡한 장기적 상호작용을 얼마나 잘 수행하는지 평가합니다.
핵심 포인트
- ClawMark는 동료 에이전트를 위한 살아있는 세계(living-world) 벤치마크입니다.
- 테스트 작업은 환경이 독립적으로 진화하는 지속 가능한 워크플로우를 포함합니다 (예: 새로운 이메일, 변경된 캘린더).
- LLM의 장기적인 추론 능력과 다중 모달 증거 처리 능력을 평가합니다.
- 여러 날에 걸친 복잡하고 현실적인 시나리오를 통해 에이전트의 지속 가능성을 검증합니다.
ClawMark
다일 coworker agents(동료 에이전트)를 위한 living-world(살아있는 세계) 벤치마크. 100 가지 작업은 LLM 이 환경이 독립적으로 진화하는 지속 가능한 워크플로우(persistent workflows)—새로운 이메일, 이동된 캘린더, 업데이트된 파일 등—를 여러 날에 걸쳐 다중 모달 증거(multimodal evidence)와 함께 처리할 수 있는지 테스트합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @_akhaliq (AI 논문)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기