본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 18. 11:44

환경 보상 없이 고정 채널 지각 이벤트 스트림으로부터의 온라인 보상-처벌 학습

요약

환경으로부터 직접적인 보상 없이 지각 패킷만을 통해 보상과 처벌을 학습하는 OHIRL 프레임워크를 제안합니다. 에이전트가 전이 결과로부터 통증, 에너지 등 지각 차원의 가치를 스스로 추론하여 정책을 최적화하는 메커니즘을 연구합니다.

핵심 포인트

  • 환경 보상 없이 지각 패킷만으로 가치를 추론하는 온라인 학습 연구
  • 예측, 역학 모델링, 궤적 평가, 가치 증거 활용의 4가지 역할 분리
  • 2x2-XOR 태스크에서 0.952의 높은 보상 부호 정확도 달성
  • 기존의 예측 오류 보상 방식보다 우수한 성능 입증

우리는 환경이 스칼라 보상(scalar reward)이나 평가 레이블(evaluative label)을 제공하지 않는 상황에서의 온라인 보상-처벌 학습(online reward-punishment learning)을 연구합니다. 각 단계에서 에이전트는 오직 고정 채널 지각 패킷(fixed-channel perceptual packet)만을 수신하며, 통증(pain), 에너지(energy), 접촉(contact), 손상(damage), 또는 인지적 오류(cognitive error)와 같은 양들은 전이 결과(transition consequences)로부터 그 가치(valence)를 추론해야 하는 지각 차원(perceptual dimensions)으로 취급됩니다. OHIRL은 네 가지 역할을 분리합니다: $M_{\psi}$는 다음 패킷 예측(next-packet prediction)을 학습하고, $D_{\omega}$는 잔차 역학(residual dynamics)을 모델링하며, $C_{\eta}$는 고정된 내부 전이 후 궤적 평가기(internal post-transition trajectory evaluator)이고, $B_{\xi}$는 결과적으로 도출된 가치 증거(value evidence)를 이후의 정책 업데이트(policy updates) 및 행동 점수 산정(action scoring)에 사용하는 법을 학습합니다. $C_{\eta}$는 회복-긍정(recovery-positive) 및 지속/성장-부정(persistence/growth-negative) 잔차 조절 지향성(residual-regulation orientation)을 사용합니다. 계수 기원 감사(coefficient-origin audit) 결과, 동일 단위(equal-unit), 원시 동일(raw-equal), 그리고 무작위 단조(random monotone) 변형들은 공개된 상위 행동 순위(top-action rankings)의 92% 이상을 보존하는 반면, 부호 반전(sign inversion)은 0%를 보존합니다. 이 보상 없는 프로토콜(reward-free protocol)은 환경 보상, 지연된 외부 평가기, 성공 레이블, 그리고 행동-선호도(action-goodness) 레이블을 유보하면서 관측 전이(observation transitions)를 노출합니다. 조건부 오류 분해(conditional error decomposition)는 $B_{\xi}$의 증거 추정 오류(evidence-estimation error)와 잔차 정책 최적화 오류(residual policy-optimization error)를 분리합니다. 2x2-XOR 패킷 태스크에서, 약(medicine)과 고추(chili)는 시각적 XOR 문맥 하에서 서로 반대되는 가치를 획득하며, 동일한 통증이나 매운맛의 증가도 결과 구조에 따라 긍정적일 수도 부정적일 수도 있습니다. $B_{\xi}$는 0.952의 균형 잡힌 보상 부호 정확도(balanced reward-sign accuracy)에 도달합니다. 전체 온라인 인터리브 감사(full online-interleaved audit)에서 $M_{\psi}$는 holdout $R^2=0.907$에 도달하고, $B_{\xi}$는 0.940의 부호 정확도에 도달하며, 정책은 0.979의 최적 행동 정확도(optimal-action accuracy)에 도달하는 반면, 즉각적 패킷 점수(immediate packet scores), 예측 오류 보상(prediction-error rewards), 셔플된 타겟(shuffled targets), 제로 보상(zero reward), 그리고 오류 감소 제어(error-reduction controls)는 붕괴합니다. 숨겨진 보상이 있는 CartPole 및 Taxi 제어, 공개 문맥 누출 없는 감사(public-context no-leakage audits), 그리고 모듈 역할 소거 실험(module-role ablations)을 통해 정보 경계와 구성 요소의 필요성을 추가로 테스트합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0