arXiv논문2026. 06. 23. 11:56

시간적 행동 트리 (Temporal Behavior Trees)에 대한 보상-페트리-넷 (Reward-Petri-Net) 해석

요약

강화학습을 위한 시간적 행동 트리(TBT)를 보상-페트리-넷(RPN)으로 해석하는 새로운 방법론을 제안합니다. TBT는 기존 행동 트리에 시간적 제약 조건을 통합하여 복잡한 로봇 작업을 효과적으로 모델링하며, 이를 통해 RL의 샘플 효율성과 학습 제어력을 향상시킵니다.

핵심 포인트

시간적 속성을 통합한 TBT를 통해 복잡한 장기 작업 모델링 가능
TBT를 페트리-넷으로 변환하여 자동화된 보상 할당(RPN) 구현
기존 RL이 실패하는 환경에서도 안정적인 학습 및 샘플 효율성 개선
선형 시간 논리(LTL)를 활용한 리프 노드의 제약 조건 명시

본 논문은 강화학습 (RL)을 위한 시간적 행동 트리 (Temporal Behavior Trees, TBTs)를 보상-페트리-넷 (Reward-Petri-Nets, RPNs)으로 해석하는 방법을 소개합니다. 복잡하고 장기적인 (long-horizon) 로봇 작업을 위한 보상 함수 (reward functions)를 설계하는 것은 매우 어려운 일이며, 특히 작업이 계층적 구조와 시간적 제약 (temporal constraints)을 가질 때 더욱 그러합니다. TBT는 리프 노드 (leaf nodes)에 시간적 속성을 통합함으로써 로봇 애플리케이션에서 사용되는 기존의 행동 트리 (Behavior Trees, BTs)를 확장합니다. 이를 통해 TBT는 Sequence, Fallback, Parallel과 같은 BT 연산자 (operators)에 의해 정의된 행동 작업 구조뿐만 아니라 작업의 시간적 제약 조건도 표현할 수 있습니다. 본 연구에서는 선형 시간 논리 (Linear Temporal Logic, LTL)를 사용하여 리프 노드에 제약 조건을 명시합니다. TBT를 사용하여 RL 보상에 정보를 제공하기 위해, 우리는 TBT를 페트리-넷 (Petri Net, PN)으로 변환하는 방법을 제공하며, TBT의 구조를 기반으로 보상이 어떻게 자동으로 할당되어 RPN을 형성할 수 있는지 보여줍니다. 점진적으로 난이도가 높아지는 일련의 환경에서, 우리는 TBT 기반 보상이 기존의 (vanilla) RL이 실패하는 지점에서 학습을 가능하게 하고, 샘플 효율성 (sample efficiency)을 개선하며, 학습 과정에 대해 유연하고 직관적인 제어를 제공함을 입증합니다. 우리는 다양한 보상 분배 방식과 TBT 구조를 사용하여 학습에 미치는 영향을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

시간적 행동 트리 (Temporal Behavior Trees)에 대한 보상-페트리-넷 (Reward-Petri-Net) 해석

요약

핵심 포인트

댓글