arXiv논문2026. 06. 18. 11:44

환경 보상 없이 고정 채널 지각 이벤트 스트림으로부터의 온라인 보상-처벌 학습

요약

환경으로부터 직접적인 보상 없이 지각 패킷만을 통해 보상과 처벌을 학습하는 OHIRL 프레임워크를 제안합니다. 에이전트가 전이 결과로부터 통증, 에너지 등 지각 차원의 가치를 스스로 추론하여 정책을 최적화하는 메커니즘을 연구합니다.

핵심 포인트

환경 보상 없이 지각 패킷만으로 가치를 추론하는 온라인 학습 연구
예측, 역학 모델링, 궤적 평가, 가치 증거 활용의 4가지 역할 분리
2x2-XOR 태스크에서 0.952의 높은 보상 부호 정확도 달성
기존의 예측 오류 보상 방식보다 우수한 성능 입증

우리는 환경이 스칼라 보상(scalar reward)이나 평가 레이블(evaluative label)을 제공하지 않는 상황에서의 온라인 보상-처벌 학습(online reward-punishment learning)을 연구합니다. 각 단계에서 에이전트는 오직 고정 채널 지각 패킷(fixed-channel perceptual packet)만을 수신하며, 통증(pain), 에너지(energy), 접촉(contact), 손상(damage), 또는 인지적 오류(cognitive error)와 같은 양들은 전이 결과(transition consequences)로부터 그 가치(valence)를 추론해야 하는 지각 차원(perceptual dimensions)으로 취급됩니다. OHIRL은 네 가지 역할을 분리합니다: $M_{\psi}$는 다음 패킷 예측(next-packet prediction)을 학습하고, $D_{\omega}$는 잔차 역학(residual dynamics)을 모델링하며, $C_{\eta}$는 고정된 내부 전이 후 궤적 평가기(internal post-transition trajectory evaluator)이고, $B_{\xi}$는 결과적으로 도출된 가치 증거(value evidence)를 이후의 정책 업데이트(policy updates) 및 행동 점수 산정(action scoring)에 사용하는 법을 학습합니다. $C_{\eta}$는 회복-긍정(recovery-positive) 및 지속/성장-부정(persistence/growth-negative) 잔차 조절 지향성(residual-regulation orientation)을 사용합니다. 계수 기원 감사(coefficient-origin audit) 결과, 동일 단위(equal-unit), 원시 동일(raw-equal), 그리고 무작위 단조(random monotone) 변형들은 공개된 상위 행동 순위(top-action rankings)의 92% 이상을 보존하는 반면, 부호 반전(sign inversion)은 0%를 보존합니다. 이 보상 없는 프로토콜(reward-free protocol)은 환경 보상, 지연된 외부 평가기, 성공 레이블, 그리고 행동-선호도(action-goodness) 레이블을 유보하면서 관측 전이(observation transitions)를 노출합니다. 조건부 오류 분해(conditional error decomposition)는 $B_{\xi}$의 증거 추정 오류(evidence-estimation error)와 잔차 정책 최적화 오류(residual policy-optimization error)를 분리합니다. 2x2-XOR 패킷 태스크에서, 약(medicine)과 고추(chili)는 시각적 XOR 문맥 하에서 서로 반대되는 가치를 획득하며, 동일한 통증이나 매운맛의 증가도 결과 구조에 따라 긍정적일 수도 부정적일 수도 있습니다. $B_{\xi}$는 0.952의 균형 잡힌 보상 부호 정확도(balanced reward-sign accuracy)에 도달합니다. 전체 온라인 인터리브 감사(full online-interleaved audit)에서 $M_{\psi}$는 holdout $R^2=0.907$에 도달하고, $B_{\xi}$는 0.940의 부호 정확도에 도달하며, 정책은 0.979의 최적 행동 정확도(optimal-action accuracy)에 도달하는 반면, 즉각적 패킷 점수(immediate packet scores), 예측 오류 보상(prediction-error rewards), 셔플된 타겟(shuffled targets), 제로 보상(zero reward), 그리고 오류 감소 제어(error-reduction controls)는 붕괴합니다. 숨겨진 보상이 있는 CartPole 및 Taxi 제어, 공개 문맥 누출 없는 감사(public-context no-leakage audits), 그리고 모듈 역할 소거 실험(module-role ablations)을 통해 정보 경계와 구성 요소의 필요성을 추가로 테스트합니다.

AI 자동 생성 콘텐츠

원문 바로가기

환경 보상 없이 고정 채널 지각 이벤트 스트림으로부터의 온라인 보상-처벌 학습

요약

핵심 포인트

댓글