RevengeBench: 행동 실험으로부터 코드 공간 정책의 역공학 (Reverse Engineering)
요약
에이전트의 행동 흔적을 통해 기저의 의사결정 코드를 역공학하는 벤치마크인 RevengeBench를 소개합니다. LLM이 게임 환경 내 행동 프로브를 설계하여 숨겨진 정책을 실행 가능한 코드로 재구성하는 능력을 평가합니다.
핵심 포인트
- 행동 흔적을 기반으로 의사결정 프로그램을 코드로 재구성하는 역문제 제기
- 5개 게임 환경과 75개 정책으로 구성된 RevengeBench 벤치마크 제안
- 맞춤형 행동 프로브 설계를 통해 코드 복구 성능을 향상시키는 실험 설계
- 12개 프런티어 LLM 테스트 결과, 초기 행동 거리의 34~72%를 폐쇄하는 성능 확인
- 재구성된 코드가 다운스트림 PvP 토너먼트에서 유효한 경쟁 우위를 제공함
과학사의 대부분 기간 동안, 행동을 연구하는 연구자들은 외부 행동으로부터 숨겨진 메커니즘을 추론할 수밖에 없었습니다. 이는 표적 개입 (targeted intervention)을 통해 관찰이 보강될 때 더 다루기 쉬워지는 역문제 (inverse problem)입니다. 우리는 이에 대한 계산적 유사성을 제기합니다. 게임 환경 내 에이전트의 행동 흔적 (behavioral traces)만 주어졌을 때, 학습자가 기저의 의사결정 프로그램 (decision program)을 실행 가능한 코드로 재구성할 수 있는지, 그리고 제어된 실험을 설계하는 능력이 이 재구성을 얼마나 향상시키는지에 대한 문제입니다. 우리는 CodeClash 토너먼트 궤적에서 추출한 5가지 게임 환경에 걸쳐 75개의 LLM 생성 및 Elo 보정된 정책 (Elo-calibrated policies)으로 구성된 벤치마크인 RevengeBench를 소개합니다. 학습자는 숨겨진 타겟 정책이 샘플링된 상대와 대결하는 것을 관찰하고, 정보가 풍부한 행동을 유도하는 맞춤형 상대 정책 형태의 행동 프로브 (behavioral probes)를 설계합니다. 그런 다음 실행 가능한 가설을 제출하며, 이는 연속적인 행동 거리 (continuous action-distance) 지표를 사용하여 평가됩니다. 우리는 또한 복구된 코드가 다운스트림 플레이어 대 플레이어 (player-versus-player) 토너먼트에서 유익한 신호를 전달함을 추가로 검증합니다. 12개의 프런티어 LLM에 걸쳐, 복구 품질은 상당한 차이(초기 거리의 34~72% 폐쇄)를 보였으며, 재구성된 정책은 특히 효과적인 대응 전략을 설계하는 데 어려움을 겪는 약한 모델들에게 측정 가능한 경쟁 우위를 제공했습니다. 우리의 벤치마크는 프로그램적 정책의 행동 복구를 코드 공간 (code-space)에서의 다루기 쉬운 역문제로 설정하며, 상대 모델링 (opponent modeling), 정책 해석 가능성 (policy interpretability), 그리고 관찰로부터 잠재적 메커니즘을 추론하는 더 넓은 질문으로 가는 길을 열어줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기