X요약2026. 06. 15. 03:45

WeaveBench

요약

Microsoft Research Asia가 에이전트의 실제 사용 환경을 반영한 114개의 장기 지평 과제 기반의 WeaveBench를 공개했습니다. 이 벤치마크는 기존 모델들이 결과만으로 평가받아 성능을 과대평가하는 문제를 해결하기 위해, 모든 단계를 감사하는 '궤적 인지형 심사관'을 사용합니다.

핵심 포인트

WeaveBench는 에이전트의 장기적인 GUI/CLI 혼합 사용 능력을 평가합니다.
기존 최첨단 모델들도 WeaveBench에서는 성능 하락(78% -> 41.2%)을 보였습니다.
결과 중심 평가가 아닌, 모든 단계를 감사하는 '궤적 인지' 방식이 핵심입니다.

Microsoft Research Asia가 에이전트들이 하나의 궤적(trajectory) 내에서 GUI와 CLI를 번갈아 사용하도록 강제하는 114개의 장기 지평(long-horizon) 과제를 소개했습니다.

OSWorld-Verified에서 78% 이상을 기록했던 동일한 최첨단 모델들조차 WeaveBench에서는 41.2%로 떨어집니다.

결과만으로 평가하는 방식은 에이전트의 성능을 10~20 퍼센트 포인트 과대평가합니다.

WeaveBench는 모든 단계를 감사(audit)하는 궤적 인지형 심사관(trajectory-aware judge)을 사용합니다.

프로젝트:
https://weavebench.github.io
논문:
https://paperswithcode.co/paper/2606.094
데이터셋:
https://huggingface.co/datasets/wanli
lll/WeaveBench

상상적 지각 토큰(Imaginative Perception Tokens)
UW, OpenAI, Microsoft, 그리고 AI2는 VLM(Visual Language Models)에게 보지 못한 시각적 관점들을 상상하도록 가르칩니다.

이러한 토큰들은 관점 취하기(perspective taking), 경로 추적(path tracing), 다중 뷰 계수(multiview counting) 전반에 걸쳐 텍스트 체인-오브-쏘트(text chain-of-thought)의 공간 추론 능력을 향상시킵니다.

추론 시 이미지는 생성되지 않습니다.

AI 자동 생성 콘텐츠

원문 바로가기

WeaveBench

요약

핵심 포인트

댓글