EvoPolicyGym: 상호작용 환경에서의 자율적 정책 진화 (Autonomous Policy Evolution) 평가
요약
자율 에이전트가 제한된 상호작용 예산 내에서 정책을 반복적으로 개선하는 능력을 평가하는 새로운 벤치마크인 EvoPolicyGym을 소개합니다. 이 시스템은 에이전트의 정책 진화 과정을 궤적 수준에서 진단하여 단순 점수 이상의 심층적인 분석을 제공합니다.
핵심 포인트
- 자율적 정책 진화(APE)를 평가하기 위한 EvoPolicyGym 벤치마크 제안
- 에이전트의 예산 할당 및 매개변수 튜닝 능력을 진단하는 궤적 분석 제공
- GPT-5.5가 EvoPolicyGym 테스트 환경에서 가장 높은 종합 성능 기록
- 단순 작업 성공을 넘어 피드백을 통한 정책 정교화 메커니즘의 중요성 강조
자율 에이전트(Autonomous agents)는 피드백을 통해 실행 가능한 정책(executable policies)을 개선할 것이라는 기대가 점점 커지고 있지만, 기존의 평가 방식은 종종 이 과정을 최종 점수로 단순화하거나 개방형 소프트웨어 엔지니어링(software-engineering)의 발전과 혼동하곤 합니다. 우리는 harness-model 에이전트가 고정된 상호작용 예산(interaction budget) 하에서 실행 가능한 정책 시스템을 반복적으로 수정하는 통제된 평가 설정인 자율적 정책 진화(Autonomous Policy Evolution)를 소개합니다. 우리는 이 설정을 EvoPolicyGym에서 구현하였으며, 이는 에이전트가 탐색된 정책을 어떻게 반복적으로 개선하는지 평가하기 위해 소형 상호작용 강화학습 (RL) 환경들로 구축된 벤치마크입니다. EvoPolicyGym 스위트에서 GPT-5.5는 가장 강력한 종합 순위 점수를 달성했으며, 16개 환경 모두에서 상위 2위의 성능을 기록했습니다. 리더보드 결과 외에도, EvoPolicyGym은 에이전트가 예산을 어떻게 할당하고 피드백을 매개변수 튜닝 (parametric tuning)으로 어떻게 전환하는지를 구분하는 궤적 수준의 진단(trajectory-level diagnostics)을 제공합니다. 이러한 분석은 강력한 자율적 정책 진화가 단순히 고립된 작업의 승리에 달려 있는 것이 아니라, 작업에 적합한 메커니즘을 발견하고 제한된 피드백 하에서 정책을 정교화하는 것에 달려 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기