Self-Harness: 스스로 개선되는 하네스 (Harnesses That Improve Themselves)
요약
LLM 에이전트의 성능을 높이기 위해 모델별로 최적화된 하네스를 스스로 개선하는 'Self-Harness' 프레임워크를 제안합니다. 약점 탐색, 하네스 제안, 제안 검증의 3단계 반복 루프를 통해 인간의 개입 없이도 모델의 성능을 일관되게 향상시킵니다.
핵심 포인트
- 모델별 특성에 맞춘 자동화된 하네스 설계 패러다임 제시
- 약점 탐색, 하네스 제안, 제안 검증의 3단계 반복 루프 구조
- MiniMax, Qwen, GLM 등 다양한 모델에서 성능 향상 입증
- 단순 지침 추가를 넘어 구체적이고 실행 가능한 수정안 생성
LLM(Large Language Model) 기반 에이전트의 성능은 기본 모델(base models)과 환경과의 상호작용을 매개하는 하네스(harnesses)에 의해 공동으로 결정됩니다. 서로 다른 모델은 각기 다른 동작을 나타내기 때문에, 효과적인 하네스 설계는 본질적으로 모델별로 특화되어야 합니다. 그러나 에이전트 하네스는 여전히 주로 인간 전문가에 의해 설계되고 있으며, 이는 현대의 LLM이 점점 더 다양해지고 빠르게 진화함에 따라 확장성이 떨어지는 패러다임입니다. 본 논문에서는 인간 엔지니어나 더 강력한 외부 에이전트에 의존하지 않고, LLM 기반 에이전트가 자신의 운영 하네스를 스스로 개선하는 새로운 패러다임인 Self-Harness를 소개합니다. 우리는 Self-Harness를 세 가지 단계의 반복 루프로 구현합니다: 실행 흔적(execution traces)으로부터 모델별 실패 패턴을 식별하는 약점 탐색(Weakness Mining), 이러한 실패와 연관된 다양하면서도 최소한의 하네스 수정을 생성하는 하네스 제안(Harness Proposal), 그리고 회귀 테스트(regression testing)를 거친 후에만 후보 편집안을 수용하는 제안 검증(Proposal Validation) 단계입니다. 우리는 최소한의 초기 하네스와 서로 다른 계열의 세 가지 기본 모델인 MiniMax M2.5, Qwen3.5-35B-A3B, GLM-5를 사용하여 Terminal-Bench-2.0에서 Self-Harness를 구현했습니다. 세 모델 모두에서 Self-Harness는 성능을 일관되게 향상시켰으며, 홀드아웃 통과율(held-out pass rates)은 각각 40.5%에서 61.9%로, 23.8%에서 38.1%로, 그리고 42.9%에서 57.1%로 증가했습니다. 질적 분석을 통해 Self-Harness가 단순히 일반적인 지침을 추가하는 것이 아니라, 모델별 약점을 구체적이고 실행 가능한 하네스 변경 사항으로 효과적으로 전환한다는 것을 추가로 보여줍니다. 이러한 결과는 LLM 기반 에이전트가 단순히 하네스에 의해 형성되는 것을 넘어, 하네스를 재형성하는 과정에도 참여할 수 있는 방향을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기