계층적 행동 공간 (Hierarchical Behaviour Spaces)
요약
본 논문은 기존 강화학습에서 옵션 보상 함수를 사용하는 방식의 한계를 극복하기 위해 '계층적 행동 공간(HBS)'이라는 새로운 프레임워크를 제안합니다. HBS는 컨트롤러가 단일 보상 함수 대신 여러 보상 함수의 선형 조합을 지정하게 함으로써, 기존보다 훨씬 표현력이 풍부한 정책 집합을 생성할 수 있습니다. NetHack 환경에서 테스트된 이 방법은 특히 장기 추론보다는 탐색 능력 향상을 통해 강력한 성능 개선을 입증했습니다.
핵심 포인트
- HBS는 옵션 보상 함수를 단일 함수가 아닌 선형 조합으로 사용하여 행동 공간의 표현력을 높입니다.
- 이 접근 방식은 컨트롤러에게 더 풍부하고 다양한 정책 집합을 유도할 수 있는 능력을 부여합니다.
- NetHack 환경에서의 실험 결과, HBS의 성능 향상은 장기 추론보다는 탐색(exploration) 증가에서 기인함을 확인했습니다.
최근 계층적 강화학습 (hierarchical reinforcement learning) 연구는 사전 정의된 옵션 보상 함수 (option reward functions) 를 통해 학습할 때 수십억 단계 (billions of timesteps) 로의 확장에서 성공을 거두었습니다. 우리는 하나의 옵션당 단일 보상 함수를 사용하는 대신, 컨트롤러가 보상 함수에 대한 선형 조합 (linear combinations) 을 지정하도록 함으로써 보상 함수를 효과적으로 행동 공간 (space of behaviours) 을 유도하는 데 사용할 수 있음을 보여줍니다. 이를 통해 더 표현력이 풍부한 정책 집합 (set of policies) 을 표현할 수 있습니다. 우리는 이 방법을 '계층적 행동 공간 (Hierarchical Behaviour Spaces, HBS)'이라고 부릅니다. NetHack 학습 환경 (NetHack Learning Environment) 에서 HBS 를 평가하여 강력한 성능을 입증했습니다. 우리는 일련의 실험을 수행한 결과, 계층 구조에 대한 우리의 방법의 이점은 장기 추론 (long term reasoning) 이 아니라 탐색 증가 (increased exploration) 에서 비롯된다는 것을 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기