arXiv논문2026. 05. 08. 12:49

Recursive Agent Optimization

요약

Recursive Agent Optimization (RAO)은 자기 자신을 생성하고 재귀적으로 하위 작업을 새로운 인스턴스에 위임할 수 있는 재귀적 에이전트를 훈련하기 위한 강화학습 접근법입니다. 이 방법은 분할 정복(divide and conquer) 원리를 활용하여 더 긴 컨텍스트와 복잡한 문제에서도 일반화하는 추론 시간 스케일링 알고리즘을 구현합니다. RAO는 에이전트가 언제, 어떻게 위임하고 소통해야 하는지 학습시켜, 모델의 컨텍스트 윈도우를 초월하는 작업 확장성과 높은 일반화 능력을 제공하며 효율성을 높입니다.

핵심 포인트

RAO는 재귀적 에이전트를 훈련하기 위한 강화학습(RL) 접근법이다.
재귀적 에이전트는 하위 작업을 새로운 인스턴스에 위임하는 방식으로 작동한다.
이는 분할 정복을 통해 컨텍스트 윈도우의 한계를 넘어 더 긴 작업과 복잡한 문제에서 일반화할 수 있게 한다.
RAO를 통해 훈련된 에이전트는 높은 훈련 효율성과 강력한 일반화 능력을 보여준다.

우리는 Recursive Agent Optimization (RAO)을 소개합니다. 이는 자기 자신을 생성하고 재귀적으로 새로운 인스턴스에 하위 작업을 위임할 수 있는 재귀적 에이전트를 훈련하기 위한 강화학습 접근법입니다. 재귀적 에이전트는 분할 정복을 통해 더 긴 컨텍스트로 확장하고 더 어려운 문제에서 일반화하는 것을 자연스럽게 허용하는 추론 시간 스케일링 알고리즘을 구현합니다. RAO 는 이러한 재귀적 추론의 이점을 최대한 활용하도록 모델을 훈련하는 방법을 제공하며, 에이전트가 언제 어떻게 위임하고 소통해야 하는지 가르칩니다. 우리는 이러한 방식으로 훈련된 재귀적 에이전트가 더 나은 훈련 효율성을 가질 수 있으며, 모델의 컨텍스트 윈도우를 넘어가는 작업을 확장할 수 있고, 에이전트가 훈련된 것보다 훨씬 어려운 작업에서 일반화할 수 있으며, 단일 에이전트 시스템에 비해 감소된 벽시계 시간을 즐길 수 있다고 발견했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Recursive Agent Optimization

요약

핵심 포인트

댓글