언제든 유효한 인증서(Anytime-Valid Certificates)를 갖춘 자기 진화형 에이전트
요약
자기 진화형 에이전트(SEA)의 안정성을 보장하기 위해 동결된 베이스 모델과 스티어링 어댑터를 결합한 새로운 아키텍처를 제안합니다. 언제든 유효한 게이트(anytime-valid gate)를 통해 수정 사항을 검증하고 감사 가능한 인증서를 발행하여 에이전트의 퇴보를 방지합니다.
핵심 포인트
- 자기 수정 과정을 스티어링 어댑터와 버전 관리되는 하네스로 제한
- 5가지 검증기 루프 메커니즘을 통한 등급 부여 없는 신호 계산
- SWE-bench Verified 테스트에서 베이스 모델의 성능을 유지하며 향상
- 이벤트 로그를 통해 에이전트의 성능 퇴보(regressions) 방지 확인
자기 진화형 에이전트(Self-evolving agents)는 대부분의 학습 이론적 보장(learning-theoretic guarantees)의 근간이 되는 가정을 위반합니다. 즉, 데이터, 평가자(evaluator), 구성 요소 및 가설 공간(hypothesis space)이 업데이트되는 정책(policy)에 의해 생성된다는 점입니다. 우리는 extbf{SEA}를 제시합니다. 이 아키텍처는 자기 수정(self-modification)을 extit{동결된(frozen)} 베이스 모델 주변의 작은 스티어링 어댑터(steering adapter)와 버전 관리되는 하네스(harness)로 제한하며, 고정된 오류 예산(error budget)에 대해 감사 가능한 인증서(auditable certificate)를 발행하는 언제든 유효한 게이트(anytime-valid gate)를 통해서만 각 수정을 허용합니다. 5개의 루프 컨트롤러(loop controllers)가 공표된 보장(published guarantees)을 구성합니다. 이러한 게이트는 동결된 베이스 모델이 이미 생성하는 행동들 중에서 오직 extit{선택(select)}만 할 수 있기 때문에, 다섯 가지의 검증기 루프 메커니즘(verifier-in-the-loop mechanisms) — best-of-$N$, 마이크로 스텝 탐색(micro-step search), 자기 작성 재현 오라클(self-authored reproduction oracles), 탐색 레이어 제어(search-layer control), 그리고 자기 수리(self-repair) — 가 게이트에 필요한 조밀하고 등급 부여가 필요 없는(grader-free) 신호를 이슈 텍스트만으로 계산하여 제공합니다. 4개의 베이스 모델에 걸친 52개 인스턴스의 SWE-bench Verified 서브셋에서, 베이스 능력(base capability)이 지배적이고 혼란이 없는 효과로 나타났으며, 두 개의 강력한 베이스 모델에서는 의도적인 no-op-composite 대조군을 통해 해당 제품군(suite)의 기여도를 각각 +4와 +5( extsc{Glm}~5.2 $24 o28$; extsc{Gpt} $29 o34$, 상위 65%)로 분리해냈으며, 이벤트 로그를 통해 메커니즘이 작동하여 퇴보(regressions)를 방지함을 확인했습니다. 결과는 비용이 많이 드는 평가에서 단일 실행(single-run)된 것입니다. 실행 간 분산(run-to-run variance)을 확인하고 작업별 알고리즘 혼합을 조정하는 것은 향후 연구 과제입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기