암시적 인과 그래프 모델링을 통한 전이 가능한 지연 인식 강화학습 (Transferable Delay-Aware Reinforcement
요약
본 논문은 무작위 지연이나 교차 태스크 환경에서 행동-상태 피드백의 시간적 대응 관계가 약화되는 문제를 해결하기 위해, 암시적 인과 그래프 모델링 기반의 전이 가능한 지연 인식 강화학습 방법을 제안합니다. 이 방법은 필드-노드 인코더와 메시지 전달 메커니즘을 사용하여 고차원 관측값에서 노드 수준의 의미를 가진 잠재 상태와 동적 인과 의존성을 학습합니다. 이를 통해 구조적 표현 및 환경 역학 지식을 습득하고, 상상 기반 행동 학습 및 계획을 통합하여 교차 태스크 전이와 빠른 적응 성능을 입증했습니다.
핵심 포인트
- 무작위 지연이나 교차 태스크 시나리오에서 발생하는 시간적 대응 관계 약화 문제를 해결하는 것이 목표입니다.
- 필드-노드 인코더와 메시지 전달 메커니즘을 활용하여 고차원 관측값으로부터 노드 수준의 잠재 상태 및 동적 인과 의존성을 추출합니다.
- 학습된 구조적 표현과 환경 역학 지식을 바탕으로 상상 기반 행동 학습 및 계획을 수행하여 정책 최적화를 진행합니다.
- 실험 결과, 제안된 방법은 무작위 지연이 있는 연속 제어 태스크와 교차 태스크 전이에서 기존 방식보다 우수한 성능과 빠른 적응 속도를 보였습니다.
무작위 지연 (Random delays)은 행동 (actions)과 후속 상태 피드백 (state feedback) 사이의 시간적 대응 관계를 약화시켜, 에이전트가 행동 효과의 실제 전파 과정을 식별하는 것을 어렵게 만듭니다. 교차 태스크 (cross-task) 시나리오에서는 태스크 목표와 보상 공식 (reward formulations)의 변화로 인해 이전에 습득한 태스크 지식의 재사용성이 더욱 감소합니다. 이 문제를 해결하기 위해, 본 논문은 암시적 인과 그래프 모델링 (implicit causal graph modeling)에 기반한 전이 가능한 지연 인식 강화학습 (transferable delay-aware reinforcement learning) 방법을 제안합니다. 제안된 방법은 필드-노드 인코더 (field-node encoder)를 사용하여 고차원 관측값 (high-dimensional observations)을 노드 수준의 의미를 가진 잠재 상태 (latent states)로 표현하며, 메시지 전달 메커니즘 (message-passing mechanism)을 채택하여 노드 간의 동적 인과 의존성 (dynamic causal dependencies)을 특징짓습니다. 이를 통해 전이 가능한 구조적 표현 (structured representations)과 환경 역학 (environment dynamics) 지식을 학습합니다. 이를 바탕으로, 잠재 공간 (latent space)에서 정책 (policies)을 최적화하기 위해 상상 기반 행동 학습 (imagination-driven behavior learning) 및 계획 (planning)을 통합하여 교차 태스크 지식 전이와 빠른 적응을 가능하게 합니다. 실험 결과에 따르면, 제안된 방법은 무작위 지연이 있는 DMC 연속 제어 (continuous control) 태스크에서 베이스라인 방법들보다 우수한 성능을 보였습니다. 교차 태스크 전이 실험은 학습된 구조적 표현과 역학 지식이 새로운 태스크로 효과적으로 전이될 수 있으며 정책 적응을 크게 가속화할 수 있음을 추가로 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기