ComAct: COM-as-Action 패러다임을 통한 전문 소프트웨어 조작의 재정의
요약
기존 GUI 및 API 기반 에이전트의 한계를 극복하기 위해 COM(Component Object Model)을 활용한 새로운 패러다임인 COM-as-Action을 제안합니다. CAD 소프트웨어 조작을 위한 벤치마크 ComCADBench와 자기 수정 에이전트 ComActor를 통해 전문 소프트웨어 제어의 새로운 가능성을 제시합니다.
핵심 포인트
- COM을 활용해 소프트웨어 조작을 결정론적 프로그램 합성으로 재정의
- 산업용 CAD 환경을 위한 최초의 에이전트 벤치마크 ComCADBench 도입
- 자기 수정 프레임워크를 통해 장기적 작업에서의 높은 회복탄력성 확보
- 기존 GUI 기반 모델 대비 압도적인 성능 및 일반화 능력 입증
기존의 컴퓨터 사용 에이전트(computer-use agents)는 전문 소프트웨어 조작 측면에서 근본적인 한계를 가지고 있습니다. GUI 기반 에이전트는 취약한 시각적 접지(visual grounding)와 장기적 오류 누적(long-horizon error accumulation) 문제로 어려움을 겪으며, API 기반 접근 방식은 이질적인 프로토콜(heterogeneous protocols)과 접근 불가능한 상용 인터페이스로 인해 어려움을 겪습니다. 본 연구에서 우리는 컴포넌트 객체 모델(Component Object Model, COM)을 통일된 실행 가능한 추상화(executable abstraction)로 식별하고, 전문 소프트웨어 상호작용을 순차적인 시각적 제어(sequential visual control)가 아닌 결정론적 프로그램 합성(deterministic program synthesis)으로 재정의하는 새로운 패러다임인 COM-as-Action을 제안합니다. 가장 까다로운 환경에서 이 패러다임을 검증하기 위해, 우리는 실제 산업용 CAD 소프트웨어를 운영하는 에이전트를 위한 최초의 벤치마크인 ComCADBench를 도입합니다. 우리의 실험은 상당한 패러다임 격차를 보여줍니다. 최첨단 독점 모델(frontier proprietary models)은 GUI 기반 상호작용 하에서 성공률이 거의 제로에 가까운 반면, COM 기반 실행은 상당한 즉각적 이득을 가져옵니다. 구문론적 정확성(syntactic correctness)과 기하학적 정확성(geometric accuracy) 사이의 남은 격차를 메우기 위해, 우리는 점진적인 3단계 프레임워크를 통해 훈련된 자기 수정 에이전트(self-correcting agent)인 ComActor와 Windows 컨테이너 내 대규모 훈련을 위한 확장 가능한 플랫폼인 ComForge를 개발합니다. 광범위한 실험을 통해 ComActor는 ComCADBench에서 최첨단 성능(state-of-the-art performance)을 달성하며, 베이스라인 모델들이 무너지는 장기적 작업(long-horizon tasks)에서도 강력한 회복탄력성을 보여주고, 외부 CAD 벤치마크로도 일반화됨을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기