arXiv논문2026. 06. 17. 11:15

OPD-Evolver: 온폴리시 증류 (On-Policy Distillation)를 통한 총체적 에이전트 진화기 (Agent Evolver)

요약

OPD-Evolver는 온폴리시 자기 증류를 통해 에이전트의 총체적 역량을 강화하는 slow-fast 공동 진화 프레임워크입니다. 4단계 메모리 계층 구조와 결과 보정 메모리 귀속 기술을 사용하여 경험을 배포 가능한 정책으로 증류합니다.

핵심 포인트

온폴리시 자기 증류를 통한 에이전트 진화 프레임워크 제안
Fast loop의 4단계 메모리 계층 구조와 Slow loop의 정책 증류 결합
기존 메모리 시스템 및 학습 기반 방법 대비 우수한 성능 입증
소형 모델(9B)로 거대 모델에 도전 가능한 효율적인 에이전트 진화 방향 제시

메모리(Memory)는 자기 진화형 에이전트(self-evolving agents)를 위한 표준적인 기질이 되었으나, 경험을 보유하는 것이 그 경험을 통해 진화하는 방법을 배우는 것과 동일하지는 않습니다. 기존의 메모리 에이전트들은 궤적(trajectories)을 저장하거나, 성찰(reflections)을 검색하거나, 기술(skills)을 축적할 수는 있지만, 유용한 경험을 선택하고, 이를 바탕으로 행동하며, 재사용 가능한 지식을 작성하고, 성장하는 저장소를 유지하는 총체적인 역량(holistic competence)은 종종 부족합니다. 우리는 온폴리시 자기 증류 (on-policy self-distillation)를 통해 이러한 에이전트 진화기(agent evolver)를 육성하는 slow-fast 공동 진화 프레임워크인 OPD-Evolver를 소개합니다. Fast loop에서 OPD-Evolver는 4단계 메모리 계층 구조(four-level memory hierarchy)와 상호작용하여 신속한 테스트 시간 진화 (test-time evolution)를 위해 경험을 읽고, 사용하고, 쓰고, 유지합니다. Slow loop에서는 결과 보정 메모리 귀속 (outcome-calibrated memory attribution)과 특권적 사후 통찰 (privileged hindsight)이 이 네 가지 능력을 배포 가능한 정책 (deployable policy)으로 증류합니다. 다양한 도메인 벤치마크에서 OPD-Evolver는 ReasoningBank와 같은 메모리 시스템보다 최대 11.5%, Skill0와 같은 학습 기반 방법보다 약 5.8% 더 뛰어난 성능을 보였습니다. 추가 분석에 따르면 OPD-Evolver는 가치 높은 경험과 메모리 관리를 내재화하여, OPD-Evolver-9B가 Qwen3.5-397B-A17B 및 Step-3.5-Flash와 같은 거대 모델들에 도전할 수 있게 하며, 이는 메모리 증강 에이전트 (memory-augmented agents)를 넘어 진정으로 자격을 갖춘 에이전트 진화기 (agent evolvers)를 향한 방향성을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

OPD-Evolver: 온폴리시 증류 (On-Policy Distillation)를 통한 총체적 에이전트 진화기 (Agent Evolver)

요약

핵심 포인트

댓글