arXiv논문2026. 06. 05. 15:44

실패한 궤적에서 신뢰할 수 있는 LLM 에이전트로: 하네스 결함의 진단 및 수리

요약

LLM 에이전트의 실패 원인을 진단하고 하네스(harness)를 자동으로 수리하는 프레임워크인 HarnessFix를 제안합니다. 실행 추적을 정규화하여 결함의 원인을 특정 계층으로 귀속시키고, 이를 바탕으로 정밀한 패치를 생성하여 에이전트 성능을 크게 향상시킵니다.

핵심 포인트

HarnessFix는 실행 추적을 HTIR로 컴파일하여 결함 원인을 정밀 진단함
실패한 궤적에서 책임 있는 하네스 계층을 식별하고 수리 연산자로 매핑
SWE-Bench 등 주요 벤치마크에서 성능을 최대 50%까지 향상시킴
기존의 자기 진화 방식보다 뛰어난 진단 및 수리 성능을 입증

LLM 기반 에이전트(LLM-based agents)는 실행 환경, 도구 인터페이스, 컨텍스트, 라이프사이클 오케스트레이션(lifecycle orchestration), 관찰 가능성(observability), 검증(verification) 및 거버넌스(governance)를 제공하는 하네스(harnesses)에 점점 더 많이 의존하고 있습니다. 기존의 자기 개선 에이전트(self-improving agents) 및 자동 하네스 진화 방법들은 주로 런타임 감독(runtime supervision), 프롬프트 최적화(prompt optimization), 워크플로우 탐색(workflow search) 또는 최종 결과에 기반한 하네스 수정을 통해 에이전트를 개선합니다. 그러나 이러한 방법들은 실패한 궤적(failed trajectories)에서 책임 있는 증거가 어디에 있는지, 그리고 어떤 하네스 계층(harness layer)이 신뢰할 수 없는 동작을 유발하는지 진단하는 데 종종 실패하며, 이로 인해 광범위하고 간접적이거나 범위가 불분명한 변경을 초래합니다.

본 논문은 에이전트의 실패를 진단하고 에이전트 하네스를 수리하기 위한 추적 가이드 프레임워크(trace-guided framework)인 HarnessFix를 제안합니다. HarnessFix는 가공되지 않은 실행 추적(raw execution traces)과 하네스 코드를 하네스 인식 추적 중간 표현(Harness-aware Trace Intermediate Representation, HTIR)으로 컴파일하며, 이는 파편화된 궤적 증거를 정규화하고 단계별 출처(step-level provenance) 및 제어 흐름(control-flow) 관계를 포착합니다. 그런 다음 실패의 원인을 책임 있는 궤적 단계와 하네스 계층으로 귀속시키고, 반복되는 진단을 실행 가능한 결함 기록(flaw records)으로 통합하며, 이를 범위가 지정된 수리 연산자(repair operators)에 매핑합니다. 마지막으로, HarnessFix는 결함별 수리 사양(repair specifications)에 따라 하네스 패치(harness patches)를 생성하고 검증하여, 수용 불가능한 회귀(regressions)를 도입하지 않으면서 대상 결함을 줄입니다.

우리는 SWE-Bench Verified, Terminal-Bench 2.0 Verified, GAIA 및 AppWorld에서 HarnessFix를 평가합니다. 이러한 벤치마크 전반에서 HarnessFix는 초기 하네스 대비 홀드아웃 테스트(held-out test) 성능을 15.2%~50.0% 향상시켰으며, 인간이 설계한 방식 및 자기 진화(self-evolution) 베이스라인보다 뛰어난 성능을 보였고, ETCLOVG 계층 전반에 걸쳐 반복되는 하네스 결함 패턴을 밝혀냈습니다.

AI 자동 생성 콘텐츠

원문 바로가기

실패한 궤적에서 신뢰할 수 있는 LLM 에이전트로: 하네스 결함의 진단 및 수리

요약

핵심 포인트

댓글