개별 행동의 암시적 신경 표현 (Implicit Neural Representations of Individual Behavior)
요약
라벨이 없는 다중 정책 행동 데이터에서 정책 표현을 학습하는 Behavioral INR을 제안합니다. 시각 분야의 암시적 신경 표현(INR)을 행동 분야로 확장하여, 상태를 후속 행동으로 매핑하는 상태-행동 함수를 통해 정책 정체성을 추론합니다.
핵심 포인트
- 라벨 없는 다중 정책 데이터셋에서 정책 표현 학습 가능
- 상태-행동 함수를 통한 Behavioral INR 모델 제안
- 가변적인 에피소드 길이와 샘플링 정밀도 자연스럽게 수용
- 정책 수준의 분포 외(OOD) 변화 정의 및 평가 수행
- 연속 상태-행동 설정에서 정책 식별 가능성 향상
우리는 라벨이 없는 다중 정책 행동 데이터(multi-policy behavioral data)로부터 정책 표현 학습(policy representation learning)을 연구합니다. 각 에피소드는 고정된 정책에 의해 생성되지만, 정책 라벨은 사용할 수 없습니다. 이러한 설정은 로보틱스 플레이(robotics play), 시연(demonstrations), 게임, 레이싱 및 주석 없이 이질적인 행동이 혼합된 기타 데이터셋에서 나타납니다. 우리는 시각(vision) 분야의 암시적 신경 표현(Implicit Neural Representations, INRs)을 행동 분야로 확장하는 자기 지도 생성 모델(self-supervised generative model)인 Behavioral INR을 소개합니다. Behavioral INR은 좌표를 RGB 값으로 매핑하는 대신, 상태(states)를 후속 행동(subsequent actions)으로 매핑하는 상태-행동 함수(state-action function)로서 정책을 표현합니다. 에피소드 수준의 잠재 변수(latent)가 FiLM 레이어를 통해 이 함수를 조절하며, 이를 통해 정책에 대한 생성적 사전 확률(generative prior)을 생성하고 감독(supervision) 없이도 정책 정체성을 추론할 수 있게 합니다. INR은 각 데이터 포인트를 기저 함수(underlying function)의 샘플로 취급하기 때문에, 서로 다른 이미지 해상도를 가진 시각 INR과 마찬가지로 동일한 모델이 가변적인 에피소드 길이와 서로 다른 샘플링 정밀도(sampling granularities)를 자연스럽게 수용할 수 있습니다. 우리는 또한 상태 분포(state-distribution) 및 행동 분포(action-distribution) 축을 따라 발생하는 정책 수준의 분포 외(Out-of-Distribution, OOD) 변화를 정의합니다. 이는 정책들이 상태나 행동에서 중첩되지만, 새로운 에이전트나 환경에만 기반한 표준적인 행동 OOD 설정으로는 포착되지 않을 때 발생합니다. 우리는 합성 가우시안 랜덤 필드(Gaussian random field) 데이터, 제어된 OOD 분할이 포함된 MuJoCo 시연, 그리고 실제 체스, 포뮬러 1(Formula 1) 레이싱, 로보틱스, Seek-Avoid 데이터셋에서 평가를 수행합니다. Behavioral INR은 가장 어려운 연속 상태-행동 설정에서 정책 식별 가능성(policy identifiability)을 가장 일관되게 향상시키며, 특히 더 긴 에피소드, 더 많은 정책, 그리고 OOD 분할로 인해 주변부 지름길(marginal shortcuts)의 유용성이 감소할 때 더욱 그러합니다. 상쇄된 이력 인코더(amortized history encoders)는 정책 정체성을 상징적 반복(symbolic repetition)이나 저차원 행동 통계로부터 복구할 수 있는 경우에는 여전히 경쟁력이 있습니다. 우리는 코드와 체크포인트를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기