arXiv논문2026. 06. 15. 03:49

재귀적 에이전트 하네스 (Recursive Agent Harness)

요약

이 글은 장문맥 추론을 위한 새로운 에이전트 프레임워크인 Recursive Agent Harness (RAH)를 소개합니다. RAH는 모델 재귀 개념을 코드 우선으로 확장하여, 상위 에이전트가 서브에이전트를 생성하고 실행하는 구조입니다. 테스트 결과, RAH는 기존 코딩 에이전트 대비 성능 향상을 입증했습니다.

핵심 포인트

RAH는 모델 재귀를 코드 우선으로 확장한 에이전트 하네스이다.
상위 에이전트는 서브에이전트를 생성하고 실행하는 스크립트를 만듭니다.
기존 코딩 에이전트 대비 성능을 크게 향상시켰습니다 (Codex 71.75% -> 81.36%).
모델 자체의 개선보다 하네스 구조가 성능 향상의 주요 원인입니다.

재귀적 언어 모델(RLMs)은 모델 호출에 대한 재귀가 장문맥 추론에 효과적인 전략임을 보여주었으며, 프로덕션 코딩 에이전트들은 Anthropic의 동적 워크플로우에서 가장 최근에 보듯이 대규모로 서브에이전트를 생성하는 코드를 작성하기 시작했습니다. 우리는 이 두 가지 작업 흐름 사이의 패턴을 이름 붙이고 연구하는데, 여기서 재귀 단위는 도구가 없는 모델 호출이라기보다는 파일 시스템 도구, 코드 실행 및 계획 기능을 갖춘 완전한 에이전트 하네스입니다. 우리는 이를 Recursive Agent Harness (RAH)라고 부르고, RLM의 모델 재귀에 대한 코드 우선 확장으로 구성합니다. 상위 에이전트는 미세 조정된 워크로드를 위해 병렬로 서브에이전트 하네스를 생성하고 실행하는 실행 가능한 스크립트를 생성하며, 작은 서브태스크를 위해 구조화된 함수 호출을 사용합니다. 우리는 장문맥 추론에 대한 제어된 평가를 제공합니다. 백본을 기존의 Codex 및 RLM 베이스라인과 일치하도록 GPT-5로 고정했을 때, RAH는 Oolong-Synthetic(199개 샘플, 최대 4M 토큰까지 13개의 컨텍스트 길이 버킷)에서 Codex 코딩 에이전트 베이스라인을 71.75%에서 81.36%로 향상시키며, 이 증가는 모델보다는 하네스 덕분입니다. 더 강력한 백본인 Claude Sonnet 4.5를 사용했을 때도 동일한 설계는 89.77%에 도달합니다.

AI 자동 생성 콘텐츠

원문 바로가기

재귀적 에이전트 하네스 (Recursive Agent Harness)

요약

핵심 포인트

댓글