arXiv논문2026. 06. 15. 12:54

AgentSpec: 통제된 구성을 통한 체화된 에이전트 스캐폴드(Scaffold)의 이해

요약

AgentSpec은 체화된 에이전트의 구성 요소를 표준화된 인터페이스로 모듈화하여 분석할 수 있는 프레임워크입니다. 추론, 메모리, 성찰 등 각 모듈 간의 상호작용과 스캐폴드 호환성이 에이전트 성능에 미치는 영향을 연구합니다.

핵심 포인트

에이전트 구성 요소를 타입화된 모듈로 표현하는 AgentSpec 제안
모듈 간 상호작용과 스캐폴드 호환성이 성능의 핵심 결정 요인임을 확인
다중 입도 메모리가 장기 상태 추적 성능을 개선함
성찰 모듈은 교정과 비용 사이의 트레이드오프를 발생시킴
연구 및 비교를 위한 코드와 인터랙티브 플레이그라운드 공개

LLM 에이전트들은 점차 단일 모델 호출이 아닌, 추론(Reasoning), 메모리(Memory), 성찰(Reflection), 행동 실행(Action execution), 그리고 학습(Learning)을 결합한 스캐폴드 시스템(Scaffolded systems)으로 구축되고 있습니다. 이러한 스캐폴드는 종종 성능을 향상시키지만, 대개 밀접하게 결합된 파이프라인(Pipelines) 내에 내장되어 있어 각 구성 요소의 기여도를 분리하거나, 대안적인 설계를 비교하거나, 모듈 간의 상호작용이 에이전트의 행동을 어떻게 형성하는지 이해하기 어렵게 만듭니다. 우리는 체화된 에이전트(Embodied agents)를 표준화된 인터페이스를 가진 재사용 가능한 정책 구성 요소(Policy components)의 타입화된 구성(Typed compositions)으로 표현하는 모듈형 사양 프레임워크인 AgentSpec을 소개합니다. AgentSpec은 인지(Perception), 메모리(Memory), 추론(Reasoning), 성찰(Reflection), 행동(Action), 그리고 선택적인 학습(Learning) 간의 인터페이스를 표준화하여, 통제된 조건 하에서 구성 요소들을 교체하고 재결합할 수 있도록 합니다. 우리는 이 프레임워크를 DeliveryBench, ALFRED, MiniGrid, 그리고 RoboTHOR에 적용하여 구현하였으며, 다양한 모델 백본(Backbones)에 걸쳐 추론, 메모리, 성찰, 그리고 강화학습(Reinforcement-learning, RL) 모듈을 분석합니다. 연구 결과에 따르면, 에이전트의 성능은 개별 모듈의 강점보다는 스캐폴드 호환성(Scaffold compatibility)과 상호작용 효과(Interaction effects)에 의해 결정됩니다. 특히, 구조화된 다중 입도 메모리(Multi-granularity memory)는 장기 상태 추적(Long-horizon state tracking)을 개선하며, 추론과 메모리는 환경에 따라 비균일하게 상호작용하고, 성찰은 교정(Correction)과 비용(Cost) 사이의 트레이드오프(Trade-off)를 발생시키며, RL로 학습된 정책은 배포 시점의 스캐폴드 구조와 함께 최적화될 때 가장 잘 결합됩니다. AgentSpec은 결합 가능한(Composable) LLM 에이전트를 연구, 비교 및 설계하기 위한 통제된 기반을 제공합니다. 우리의 코드, 베이스라인(Baselines) 및 인터랙티브 플레이그라운드(Interactive playground)는 https://agentspec-embodied.github.io 에서 공개적으로 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AgentSpec: 통제된 구성을 통한 체화된 에이전트 스캐폴드(Scaffold)의 이해

요약

핵심 포인트

댓글