arXiv논문2026. 06. 01. 12:04

강화학습 (RL)에서의 터미널 표현 (The Terminal Representation)

요약

강화학습(RL)의 표현 학습을 위한 새로운 방식인 터미널 표현(TR)을 제안합니다. TR은 기존의 SR이나 DR과 달리 고유값 분해 없이도 낮은 차원에서 효율적으로 궤적을 인코딩하며, 다양한 다운스트림 태스크를 지원합니다.

핵심 포인트

터미널 표현(TR)은 고유벡터 계산 없이도 효율적인 학습 가능
기존 DR의 고유벡터를 포함하면서도 계산 오버헤드 감소
대칭적 전이 역학 가정 없이도 적용 가능한 구조적 이점
옵션 발견, 보상 형성, 전이 학습 등 다양한 태스크 지원

표현 학습 (Representation learning)은 강화학습 (RL) 내에서 시공간적 추상화 (spatio-temporal abstraction)를 위한 강력한 도구입니다. 잘 확립된 두 가지 접근 방식은 성공자 표현 (successor representation, SR)과 기본 표현 (default representation, DR)을 통한 것입니다. SR은 상태를 해당 상태가 유도하는 미래 궤적 (trajectories)에 의해 인코딩하며, 보상 (reward)과 분리된 정보 흐름을 포착합니다. DR은 이를 기반으로 궤적에 보상 가중치를 부여하여, 표현 내에 신용 할당 (credit-assignment) 구조를 통합합니다. 두 표현의 고유벡터 (Eigenvectors)는 옵션 발견 (option discovery), 보상 형성 (reward shaping), 전이 학습 (transfer learning), 탐험 (exploration)을 포함한 다양한 다운스트림 태스크 (downstream tasks)를 지원하는 데 사용되어 왔습니다. 우리는 구조적으로 구별되는 공식인 터미널 표현 (terminal representation, TR)을 소개합니다. TR은 DR과 유사하게 보상 가중치가 부여된 궤적을 인코딩하지만, 더 낮은 차원의 객체로 학습될 수 있으며, 고유벡터 계산 없이도 언급된 응용 분야에 직접 사용될 수 있습니다. 고유값 분해 (Eigendecomposition)는 대칭적 전이 역학 (symmetric transition dynamics)이라는 가정을 부과하지만, TR은 이를 우회할 수 있습니다. 본 연구에서는 TR의 이론적 토대인 유도 과정, 두 학습 알고리즘의 수렴성, 제로샷 구성성 (zero-shot compositionality)을 위한 활용, 그리고 대안적인 보상 공식 간의 등가성을 개발합니다. 나아가 우리는 TR이 최상위 DR 고유벡터에 내장되어 있음을 보여줌으로써, 고유값 분해 없이도 동일한 기저 지식을 포착할 수 있음을 증명합니다. 또한, TR이 학습, 저장 및 사용에 있어 더 적은 계산 오버헤드 (computational overhead)를 요구하면서도, 부수적인 응용 분야에서 기존 표현들의 실행 가능한 대안임을 보여주는 실증적 증거를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

강화학습 (RL)에서의 터미널 표현 (The Terminal Representation)

요약

핵심 포인트

댓글