arXiv논문2026. 06. 30. 12:18

Embodied Agent 아키텍처 설계 자동화

요약

Embodied Agent의 인지, 메모리, 계획, 행동 모듈 설계를 자동화하는 연구를 다룹니다. AgentCanvas와 KDLoop를 통해 시뮬레이터 환경에서의 아키텍처 탐색 가능성과 데이터 누수, 최적화 신호 노이즈 등 현재 기술의 한계를 규명합니다.

핵심 포인트

Embodied Agent 아키텍처 설계를 자동화하는 AAS 연구 수행
AgentCanvas와 KDLoop를 통한 체계적인 탐색 절차 제안
시각-언어 내비게이션 등 다양한 태스크에서 성능 향상 확인
롤아웃 노이즈 및 에피소드 수준 신용 할당 문제 등 한계점 발견

Embodied agent(체화된 에이전트)는 일반적으로 인지(perception), 메모리(memory), 계획(planning), 그리고 행동(action) 모듈의 수동 설계된 조합으로 구축됩니다. 이러한 모듈성은 방대한 아키텍처 설계 공간을 노출하지만, 현재의 시스템들은 정보가 어디에 저장될지, 관측값(observations)이 어떻게 처리될지, 그리고 모델 호출(model calls)이 어떻게 연결될지를 선택하는 데 여전히 연구자의 직관에 의존하고 있습니다. Agent Architecture Search (AAS)는 텍스트 도메인 에이전트를 위해 이러한 설계를 자동화하지만, 시뮬레이터 롤아웃(simulator rollouts)을 통한 인지적 embodied agent에 대한 체계적인 평가는 이루어지지 않았습니다. 우리는 이러한 전이(transfer)를 연구합니다. 우리는 시뮬레이터 인지 실행(simulator-aware execution) 및 에피소드 수준의 로그(episode-level logs)를 갖춘 편집 가능한 노드 및 와이어 프로그램으로서 embodied executor를 호스팅하는 타입 그래프 런타임(typed-graph runtime)인 AgentCanvas와, 정체(stalls) 발생 시 트리거되는 성찰(reflection)과 함께 제안(proposal), 비판(critique), 실험(experiment), 증류(distillation)를 순환하는 코딩 에이전트 탐색 절차인 KDLoop를 소개합니다. 우리는 시각-언어 내비게이션(vision-language navigation), embodied 질의응답(embodied question answering), 그리고 언어 조건부 조작(language-conditioned manipulation)을 아우르는 4가지 embodied executor에 대해 3가지 AAS 변형을 평가합니다. 결과적인 3x4 매트릭스는 아키텍처 수준의 탐색이 embodied 태스크에서 배포 가능한 수준의 방향성 있는 성공률 향상을 만들어낼 수 있음을 보여주는 동시에, 점수가 높게 나타난 한 후보는 데이터 누수(leak-bearing)를 포함하고 있어 거부되었습니다. 동시에, 실험은 텍스트 도메인 AAS에서는 나타나지 않았던 제약 사항들을 드러냅니다: 최적화 신호(optimization signals)가 롤아웃 노이즈(rollout noise)에 의해 가려질 수 있고, 탐색이 로컬 편집 분지(local edit basins)에 갇힐 수 있으며, 상세한 로그가 사용 가능할 때조차 에피소드 수준의 신용 할당(credit assignment)은 부분적으로만 나타납니다. 이러한 결과는 embodied agent를 위한 자동화된 아키텍처 탐색의 가능성과 현재의 한계를 모두 규명합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Embodied Agent 아키텍처 설계 자동화

요약

핵심 포인트

댓글