본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 26. 12:09

고립된 기술에서 일상적인 물리적 자율성으로: 옴니모달(Omnimodal) 체화된 에이전트의 발전

요약

비정형 환경에서 사이버와 물리 영역을 통합 제어하는 체화된 에이전트 프레임워크 OmniAct를 제안합니다. 계층적 비동기 아키텍처를 통해 계획, 메모리, 검증을 분리하여 장기 작업 수행 시의 자율성과 효율성을 높였습니다.

핵심 포인트

  • 사이버-물리 통합 액션 공간을 위한 계층적 비동기 아키텍처 제안
  • 이벤트 경계 기반 압축을 통한 적응형 계층적 메모리 구현
  • 비동기 시각적 선점 엔진으로 물리적 실행 중 오류 감지 및 복구
  • 장기 작업 성공률 향상 및 효율적인 토큰 소비율 달성

비정형 환경에서 지속 가능한 체화된 에이전트(embodied agents)를 구축하기 위해서는 사이버(API, IoT) 및 물리(조작, 내비게이션) 영역 모두를 아우르는 이질적인 도구들의 통합된 오케스트레이션(orchestration)과, 장기 운영 시 필연적으로 발생하는 물리적 실패로부터의 자율적인 복구 능력이 요구됩니다. 기존 시스템들은 이를 별개의 문제로 취급합니다. 즉, VLM(Vision-Language Model) 기반 플래너는 통합된 사이버-물리 액션 공간(cyber-physical action space)이 부족하고, 에이전트 프레임워크는 시간적 일관성(temporal coherence)을 저해하는 무제한적인 컨텍스트(context)를 축적하며, VLA(Vision-Language-Action) 정책은 자체 실패를 감지하지 못한 채 오픈 루프(open-loop) 방식으로 실행됩니다. 우리는 지속적인 자율성을 위해 단일 모델(monolithic model)이 아닌, 계획(planning), 메모리(memory), 검증(verification)이 명시적으로 분리된 계층적 비동기 아키텍처(hierarchical asynchronous architecture)가 필요하다고 주장합니다. 이를 위해 우리는 OmniAct를 제시합니다. OmniAct는 통합된 액션 공간 전반에서 기술 라우팅(skill routing)을 수행하는 멀티모달 시맨틱 플래너(multimodal semantic planner), 컨텍스트 증가를 하위 선형(sub-linear)으로 유지하기 위해 이벤트 경계 기반 압축을 사용하는 적응형 계층적 메모리(adaptive hierarchical memory), 그리고 물리적 실행 중 시맨틱 루프(semantic loop)를 닫아주는 비동기 시각적 선점 엔진(asynchronous visual preemption engine)을 통합한 프레임워크입니다. 4개의 IoT 장치를 조정하는 2개의 로봇 플랫폼에서 수행된 40개의 실제 장기 작업(long-horizon tasks)을 통해, OmniAct는 모든 복잡도 수준에서 엔드 투 엔드(end-to-end) 성공률의 일관된 향상을 달성하였고, 10만 개 이상의 누적 상호작용 토큰(interaction tokens)에 대해서도 거의 평탄한 토큰 소비율을 유지하며, 중간 규모의 오픈 웨이트(open-weight) 모델을 독점적(proprietary) 수준의 성능으로 끌어올렸습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0