arXiv논문2026. 06. 02. 11:48

심층 강화학습 (Deep RL)에서 작업 유도 표현 불변성은 학습 목표에 따라 달라진다

요약

심층 강화학습(Deep RL)에서 학습된 추상적 표현의 특성을 MDP 축소 이론 관점에서 분석한 연구입니다. 알고리즘 방식에 따라 학습되는 불변성의 종류가 다름을 밝혀냈습니다.

핵심 포인트

DQN(가치 기반)은 MDP 준동형 대칭성에 불변인 표현을 학습함
PPO(정책 경사)는 행동 대칭성에 불변인 표현을 학습함
알고리즘별 표현 차이는 전이 학습 및 LLM 프롬프트 의존성에 영향을 미침
강화학습 표현을 비교하는 원칙적인 접근 방식과 신경 코딩 통찰력 제공

강화학습 (Reinforcement Learning (RL))은 신경과학 분야에서 목표 지향적인 동물 행동의 모델로서 오랫동안 역할을 해왔습니다. 현대의 심층 강화학습 (Deep RL)은 다양한 영역에서 놀라운 성공을 보여주며 이러한 연결 고리를 더욱 강화했습니다. 고차원 상태 공간 (high-dimensional state spaces)의 추상적 표현 (abstract representations)을 학습하는 능력은 이러한 성공의 밑바탕이 됩니다. 그러나 이러한 학습된 표현에 대한 이론적 이해는 여전히 제한적이며, 이는 모델과 동물의 학습 사이의 직접적인 비교를 방해합니다. 우리는 MDP 축소 이론 (MDP reduction theory)의 관점을 통해 심층 강화학습 (Deep RL) 표현을 분석함으로써 이 간극을 해결하고자 합니다. 내비게이션 작업 (navigation task)에서 표준적인 강화학습 (RL) 알고리즘들을 조사한 결과, 성능이 비슷하더라도 가치 기반 방식 (value-based method, DQN)은 MDP 준동형 대칭성 (MDP homomorphism symmetries)에 불변인 표현을 학습하는 반면, 정책 경사 방식 (policy-gradient method, PPO)은 행동 대칭성 (action symmetries)에 불변인 표현을 학습한다는 것을 발견했습니다. 이러한 차이는 여러 도메인에 걸쳐 일관되게 나타나며, 전이 학습 (transfer learning)에 하류 결과 (downstream consequences)를 미치고, LLM (Large Language Models)에서도 프롬프트 의존적인 방식으로 나타납니다. 우리의 연구 결과는 강화학습 (RL) 알고리즘 전반에 걸쳐 학습된 표현을 비교하는 원칙적인 접근 방식을 제공하며, 실질적인 시사점과 뇌의 신경 코딩 (neural coding)에 대한 가능한 통찰력을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

심층 강화학습 (Deep RL)에서 작업 유도 표현 불변성은 학습 목표에 따라 달라진다

요약

핵심 포인트

댓글