X요약2026. 04. 29. 22:26

ClawMark

요약

ClawMark는 동료 에이전트(coworker agents)의 성능을 측정하기 위해 설계된 살아있는 세계(living-world) 벤치마크입니다. 이 벤치마크는 LLM이 새로운 이메일, 변경된 캘린더, 업데이트된 파일 등 환경이 독립적으로 진화하는 지속 가능한 워크플로우를 여러 날에 걸쳐 처리할 수 있는지 테스트합니다. 이를 통해 에이전트가 다중 모달 증거와 복잡한 장기적 상호작용을 얼마나 잘 수행하는지 평가합니다.

핵심 포인트

ClawMark는 동료 에이전트를 위한 살아있는 세계(living-world) 벤치마크입니다.
테스트 작업은 환경이 독립적으로 진화하는 지속 가능한 워크플로우를 포함합니다 (예: 새로운 이메일, 변경된 캘린더).
LLM의 장기적인 추론 능력과 다중 모달 증거 처리 능력을 평가합니다.
여러 날에 걸친 복잡하고 현실적인 시나리오를 통해 에이전트의 지속 가능성을 검증합니다.

ClawMark

다일 coworker agents(동료 에이전트)를 위한 living-world(살아있는 세계) 벤치마크. 100 가지 작업은 LLM 이 환경이 독립적으로 진화하는 지속 가능한 워크플로우(persistent workflows)—새로운 이메일, 이동된 캘린더, 업데이트된 파일 등—를 여러 날에 걸쳐 다중 모달 증거(multimodal evidence)와 함께 처리할 수 있는지 테스트합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ClawMark

요약

핵심 포인트

댓글