arXiv논문2026. 05. 18. 20:02

불완전한 월드 모델(World Models)의 취약성 및 모델 착취(Model Exploitation)에 관한 연구

요약

본 연구는 강화학습의 월드 모델(World Models)에서 발생하는 모델 착취(Model Exploitation)에 대한 새로운 정의를 제안하고, 이것이 거대한 정책 집합에서 본질적으로 피할 수 없는 현상임을 증명합니다. 보상 해킹(Reward Hacking)과의 관계를 이론적으로 규명하며, 유한한 정책 집합에서도 모델 착취를 완전히 배제할 수 없음을 밝혀 안전한 계획(Safe Planning)을 위한 한계를 제시합니다.

핵심 포인트

모델 착취(Model Exploitation)에 대한 새로운 비형식적 정의 제안
거대한 정책 집합 내에서 모델 착취의 불가피성 증명
보상 해킹(Reward Hacking)과 모델 착취 간의 이론적 연결 고리 구축
모델 착취를 피할 수 있는 안전한 지평(Safe Horizon) 도출

우리는 강화학습 (Reinforcement Learning)에서 모델 착취 (Model Exploitation)에 대한 새로운 정의를 제안합니다. 비형식적으로 설명하자면, 환경의 실제 전이 모델 (Transition Model)이 반대의 결과를 암시함에도 불구하고, 월드 모델 (World Model)이 특정 정책 (Policy)이 다른 정책보다 엄격히 선호되어야 함을 암시한다면 해당 월드 모델은 착취 가능하다고 정의할 수 있습니다. 우리는 이 정의를 보상 해킹 (Reward Hacking)의 기존 특성 정의와 유추하였으나, 불가피성에 관한 기존의 증명이 착취 (Exploitation)에는 적용되지 않음을 보여줍니다. 이러한 장애물을 극복하기 위해, 우리는 보상 해킹 (Reward Hacking)과 모델 착취 (Model Exploitation)에 관한 일반 이론을 개발하여, 거대한 정책 집합 (Policy Sets)에서 착취가 본질적으로 피할 수 없음을 증명하고, 해킹 (Hacking)에 대한 상응하는 주장을 특수한 사례로 도출해냅니다. 불행히도, 유한한 정책 집합 (Finite Policy Sets)에서 해킹 불가능성 (Unhackability)을 보장하는 조건이 착취를 배제하는 대응 조건은 존재하지 않는다는 점 또한 발견했습니다. 결과적으로, 우리는 착취에 대한 완화된 개념을 도입하고 이를 피할 수 있는 안전한 지평 (Safe Horizon)을 도출합니다. 종합적으로, 우리의 연구 결과는 보상 해킹 (Reward Hacking)과 모델 착취 (Model Exploitation) 사이의 공식적인 가교를 구축하며, 월드 모델 (World Models) 내에서 안전한 계획 (Safe Planning)의 한계를 규명합니다.

AI 자동 생성 콘텐츠

원문 바로가기

불완전한 월드 모델(World Models)의 취약성 및 모델 착취(Model Exploitation)에 관한 연구

요약

핵심 포인트

댓글