arXiv논문2026. 06. 16. 22:52

LabOSBench: 과학용 기기 제어를 위한 컴퓨터 사용 에이전트 벤치마킹

요약

과학용 기기 제어를 위한 멀티모달 GUI 에이전트 벤치마크인 LabOSBench를 소개합니다. 웹 기반 시뮬레이터를 통해 복잡한 과학 실험 워크플로를 안전하고 확장 가능하게 평가할 수 있는 환경을 제공합니다.

핵심 포인트

과학용 기기 제어에 특화된 시뮬레이션 기반 벤치마크 제안
OS 가상화 없이 웹 브라우저를 활용한 유연한 평가 환경 구축
샘플 로딩부터 데이터 획득까지 8개 기기, 96개 하위 작업 포함
기존 에이전트의 피드백 기반 작업 및 장기 워크플로 수행 능력 한계 확인

현재의 컴퓨터 사용 (computer-use) 벤치마크는 주로 가상화된 시스템 내에서의 소프트웨어 조작 작업에 집중되어 있는 반면, 과학용 기기 시나리오는 복잡한 인터페이스에 대한 조정된 제어와 피드백 기반의 파라미터 조절 (parameter adjustment)을 요구합니다. 그러나 물리적인 고정밀 기기에서 에이전트를 직접 평가하는 것은 높은 비용, 안전 위험, 제한된 접근성, 그리고 재현 가능한 평가를 보장하기 어렵다는 문제로 인해 비현실적입니다. 이는 과학용 기기의 운영상의 어려움을 유지하면서도 확장 가능하고 안전한 벤치마킹을 가능하게 하는, 시뮬레이션되었지만 현실적인 테스트베드의 필요성을 불러일으킵니다. 이를 위해, 우리는 웹 기반 과학 기기 시뮬레이터 세트를 구축하여 멀티모달 GUI 에이전트 (multimodal GUI agents)를 위한 도전적인 벤치마크인 LabOSBench를 소개합니다. 브라우저를 통해 직접 작동하는 LabOSBench는 리소스 집약적인 OS 가상화 (OS virtualization)를 피하면서 유연한 작업 구성 및 실행 기반 평가를 지원합니다. 구체적으로, LabOSBench는 샘플 로딩, 정렬, 파라미터 튜닝, 데이터 획득에서 결과 검사까지의 워크플로를 아우르는 8개의 기기 시뮬레이터에 걸쳐 96개의 하위 작업 (subtasks)을 구성합니다. 우리는 범용 시각-언어 모델 (vision-language models), 특화된 GUI 에이전트 모델, 그리고 고급 에이전트 프레임워크 (agentic frameworks)를 하위 작업 및 엔드 투 엔드 (end-to-end) 수준 모두에서 평가합니다. 우리의 실험 결과에 따르면, 기존 에이전트들이 많은 구조화된 GUI 하위 작업들을 완료할 수는 있지만, 피드백 기반 작업과 장기적 워크플로 실행 (long-horizon workflow execution)에는 여전히 어려움을 겪고 있음을 보여줍니다. 종합적으로, LabOSBench는 컴퓨터 사용 에이전트가 과학용 기기 제어로 발전할 수 있도록 하는 재현 가능하고 저비용인 테스트베드를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LabOSBench: 과학용 기기 제어를 위한 컴퓨터 사용 에이전트 벤치마킹

요약

핵심 포인트

댓글