SetupX: LLM 에이전트가 기능적으로 올바른 코드 저장소 설정 과정에서의 과거 실패로부터 학습할 수 있는가?
요약
LLM 에이전트가 코드 저장소 설정 과정의 실패를 학습하여 환경을 구성하는 SetupX 프레임워크를 제안합니다. XPU를 통한 경험 전이, Docker 스냅샷 기반의 투기적 실행, 그리고 검사관-판사 검증 프로토콜을 통해 복잡한 설정 문제를 해결합니다.
핵심 포인트
- 자기 진화형 경험 표현(XPU)을 통한 저장소 간 지식 전이
- LIFO Docker 스냅샷을 활용한 안전한 시행착오 및 롤백
- 검사관-판사 프로토콜을 통한 신뢰도 높은 설정 검증
- 기존 베이스라인 대비 19% 이상의 성능 향상 달성
기능적으로 올바른 저장소 설정 (Functionality-correct repository setup)은 저장소에 문서화된 기능들을 성공적으로 실행하기 위해 실행 환경(예: 의존성 (dependencies), 빌드 스크립트 (build scripts))을 구성하는 것을 목표로 합니다. 이는 의존성 불일치, 누락된 툴체인 (toolchains), 불완전한 설치, 검증 전략 (verification-strategy) 불일치 등 저장소마다 상이한 실패 원인으로 인해 상당한 어려움을 수반합니다. 기존의 LLM 에이전트들은 이러한 문제들을 견고하게 해결하는 데 어려움을 겪고 있으며, 특히 (1) 저장소 간 경험 전이 (cross-repository experience transfer), (2) 가역적이지 않은 상태 변화 (non-invertible state changes) 하에서의 다단계 시행착오 및 복구 (multi-step trial-and-repair), (3) 설정으로 인한 실패와 저장소 자체의 버그를 구분하기 위한 설정 결과의 견고한 검증 (robust verification)을 지원하지 못합니다.
이를 해결하기 위해, 우리는 경험 기반 학습 설정 프레임워크인 SetupX를 소개합니다. 첫째, 우리는 검증된 환경 수정 사항을 미지의 저장소로 동적으로 전이할 수 있도록 설정 신호 (setup signals), 텍스트 가이드 (textual guidance), 실행 가능한 작업 (executable actions)을 인코딩하는 이중 모달리티 지식 단위인 자기 진화형 경험 표현 (Self-Evolving Experience Representation, XPU)을 구축합니다. 둘째, LIFO Docker 스냅샷 스택 (LIFO Docker snapshot stack)을 기반으로 하는 경험 증강 투기적 실행 (Experience-Augmented Speculative Execution)을 채택하여, 에이전트가 선제적으로 수정 사항을 시도하고 알려진 양호한 상태로 안전하게 롤백 (roll back)할 수 있도록 합니다. 셋째, 증거 수집과 최종 판단을 분리하는 검사관-판사 검증 프로토콜 (Prosecutor-Judge Verification Protocol)을 도입하여, 피상적인 빌드 타임 지표 (build-time metrics)를 넘어 더욱 신뢰할 수 있는 설정 검증을 가능하게 합니다.
정교하게 설계된 벤치마크에 대한 평가 결과, SetupX는 가장 높은 성능(예: 92% 통과율)을 달성하였으며 가장 강력한 베이스라인 (baseline)보다 19% 이상 뛰어난 성능을 보였습니다. 결정적으로, SetupX는 서로 다른 컨테이너에 걸쳐 여러 상호 연결된 서비스를 조정해야 하는 복잡한 다중 저장소 설정 (multi-repository setup)에서 탁월한 능력을 발휘합니다. 코드 저장소는 https://github.com/OpenDataBox/SetupX 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기