Adaptive Auto-Harness: 개방형 작업 스트림에서의 에이전트 시스템 배포를 위한 지속적인 자기 개선
요약
개방형 작업 스트림 환경에서 LLM 에이전트의 성능 저하를 방지하기 위한 Adaptive Auto-Harness 프레임워크를 제안합니다. 이 시스템은 진화 및 적응 손실을 분해하여 멀티 에이전트 진화기와 하네스 트리, 인간 유도 기능을 통해 지속적인 자기 개선을 수행합니다.
핵심 포인트
- 고정된 벤치마크가 아닌 동적인 작업 스트림에 최적화된 에이전트 개선 방식 제안
- 진화 손실과 적응 손실 분해를 통한 오라클 하네스 격차 해소
- 상태 유지형 멀티 에이전트 진화기 및 해결 시점 라우팅 기능 탑재
- 기존 5개 자동 하네스 베이스라인 대비 우수한 성능 입증
A-Evolve, GEPA, Meta-Harness와 같은 Auto-harness (자동 하네스) 시스템은 실행 피드백으로부터 프롬프트(prompts), 기술(skills), 도구(tools), 메모리(memories) 및 지원 인프라를 최적화하여 LLM 에이전트를 개선하지만, 일반적으로 고정된 오프라인 벤치마크(offline benchmarks)에서 평가됩니다. 반면 실제 배포 환경은 개방형 작업 스트림(open-ended task streams)을 제시합니다. 즉, 이력(histories)은 고정된 종료 시점 없이 계속 성장하며, 이질적인 작업(heterogeneous tasks)들은 서로 다른 하네스를 요구하고, 문제 분포(problem distributions)는 시간이 지남에 따라 변화합니다. 이러한 도전 과제들은 반복적이고 밀도 있게 업데이트되는 단일 하네스를 취약하게 만들며, 정확도가 초기에 정점에 도달한 후 하락하게 되어 성능 저하를 초래합니다. 이는 작업별 적응(task-wise adaptation)을 통한 지속적인 하네스 구축의 필요성을 불러일으킵니다. 우리는 이러한 스트림을 위한 프레임워크이자 시스템인 Adaptive Auto-Harness를 소개합니다. 이 프레임워크는 오라클 하네스(oracle harness)와의 격차를 진화 손실(evolution loss)과 적응 손실(adaptation loss)로 분해합니다. 시스템은 상태 유지형 멀티 에이전트 진화기(stateful multi-agent evolver), 해결 시점 라우팅(solve-time routing) 기능이 있는 하네스 트리(harness tree), 그리고 이력에 필요한 신호가 부족한 경우를 위한 인간 유도 훅(human-steering hooks)을 통해 이러한 손실들을 해결합니다. 예측 시장(prediction-market), 보안 경쟁(security-competition), 이벤트 예측(event-forecasting) 스트림 전반에 걸쳐 Adaptive Auto-Harness는 5개의 기존 자동 하네스 베이스라인(auto-harness baselines)보다 뛰어난 성능을 보였으며, 절제 연구(ablations)를 통해 성능 향상이 더 나은 구축, 라우팅 또는 타겟팅된 인간 유도(human steering)에 기인함을 입증했습니다. 코드는 https://github.com/A-EVO-Lab/AdaptiveHarness 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기