arXiv논문2026. 05. 26. 12:52

저차원 부분 공간에서의 학습: 강화학습 (RL)을 위한 직교 병목 (Orthogonal Bottlenecks)

요약

심층 강화학습(RL) 에이전트의 고차원 신경망 표현을 저차원 부분 공간으로 제한하는 '직교 병목(Orthogonal Bottlenecks)' 기법을 제안합니다. 별도의 알고리즘 변경 없이도 표현력을 보존하며, 환경 복잡성에 따른 최적의 차원을 분석하여 성능을 안정화합니다.

핵심 포인트

고정된 정규 직교 투영을 통한 저차원 표현 유도
알고리즘 변경이나 보조 목적 함수가 필요 없는 구조
병목 차원이 임계값을 넘을 시 기준 성능 유지 및 향상
특징 노름 안정화 및 유효 계수 증가 효과

심층 강화학습 (Deep reinforcement learning, RL) 에이전트는 작업 관련 가치 (Value) 및 정책 (Policy) 구조가 본질적으로 저차원일 수 있다는 증거가 늘어나고 있음에도 불구하고, 일반적으로 고차원 신경망 표현 (Neural representations)에 의존합니다. 본 연구에서는 인코더 특징 (Encoder features)을 저차원 부분 공간 (Low-dimensional subspace)으로 제한하기 위해 고정된 정규 직교 투영 (Orthonormal projection)을 삽입하는, 단순하면서도 효과적인 표현 수준의 사전 정보 (Representation-level prior)를 제시합니다. 이는 보조 목적 함수 (Auxiliary objectives), 사전 학습 (Pretraining), 또는 기반이 되는 RL 알고리즘의 변경을 요구하지 않습니다. 선형 실현 가능성 (Linear realizability) 가정 하에, 우리는 병목 차원 (Bottleneck dimension)이 특징 공간 (Feature space) 내 최적 가치 함수 (Optimal value function)의 본질적 계수 (Intrinsic rank)를 초과할 때, 병목이 표현력 (Expressivity)을 보존하며 유도된 경사 역학 (Gradient dynamics)을 동등한 저차원 매개변수화 (Low-dimensional parameterization)까지 변화시키지 않음을 증명합니다. 경험적으로, 우리는 단일 및 다중 작업 벤치마크 모두에서 병목 차원이 작은 작업 의존적 임계값 (Task-dependent threshold)을 초과하면 기준 성능 (Baseline performance)이 일치하거나 향상된다는 것을 발견했습니다. 많은 경우, 가치 표현 (Value representations)은 손실 없이 매우 낮은 차원으로 압축될 수 있으며, 최소 충분 차원 (Minimal sufficient dimension)은 인코더 너비 (Encoder width)보다 환경 복잡성 (Environment complexity)에 훨씬 더 많이 의존합니다. 또한, 우리는 표현 기하학 (Representation geometry)을 분석하여 직교 병목 (Orthogonal bottlenecks)이 특징 노름 (Feature norms)을 안정화하고 더 높은 유효 계수 (Effective rank)와 연관되어 있음을 발견했습니다. 종합적으로, 이러한 결과는 강화학습에서의 매니폴드 가설 (Manifold hypothesis)에 대한 표현 공간적 해석을 뒷받침하며, 직교 병목을 RL 표현을 형성하기 위한 가볍고 아키텍처에 구애받지 않는 (Architecture-agnostic) 메커니즘으로 자리매김합니다.

AI 자동 생성 콘텐츠

원문 바로가기

저차원 부분 공간에서의 학습: 강화학습 (RL)을 위한 직교 병목 (Orthogonal Bottlenecks)

요약

핵심 포인트

댓글