에이전트 하네스(Agent Harness) 설계가 모델 미세 조정보다 SWE-Bench에서 더 큰 성능 향상을 가져온다
요약
SWE-Bench 평가에서 모델 미세 조정보다 에이전트 하네스(Agent Harness) 설계가 성능 향상에 더 큰 영향을 미칠 수 있음을 보여주는 연구입니다. 잘 설계된 어댑터는 동일 모델에서도 Pass@1 성능을 50%p 이상 끌어올릴 수 있습니다.
핵심 포인트
- 에이전트 하네스 설계가 모델 업그레이드만큼 성능에 중요함
- GLM 5.1 기준 하네스 수정만으로 Pass@1 54.3%p 향상
- 모델 선택과 하네스 선택의 성능 기여도가 유사한 수준임
- 향후 리더보드에 모델과 하네스 변형을 함께 보고할 필요성 제기
에이전트 하네스 (Agent harness) 설계는 LLM을 업그레이드하는 것보다 SWE-Bench에서 더 큰 이득을 가져다줄 수 있습니다. Claw-SWE-Bench 연구에 따르면, 잘 설계된 어댑터 (adapter)는 동일한 모델을 유지하면서도 Pass@1을 50 퍼센트 포인트 이상 끌어올리는 것으로 나타났습니다 [1].
이전의 코딩 에이전트 (coding agents) 평가들은 종종 하네스를 고정된 배관 계층 (plumbing layer)으로 취급하고, 패치 추출 (patch-extraction)이나 워크스페이스 계약 (workspace contracts)의 영향을 체계적으로 연구하지 않은 채 모델 크기나 프롬프팅 트릭 (prompting tricks)에만 집중했습니다.
GLM 5.1의 경우, 최소한의 직접 차이 (direct-diff) 어댑터는 19.1%의 Pass@1을 기록했지만, 전체 어댑터를 사용하면 73.4%에 도달하며, 이는 오로지 하네스 수정 (harness tweaks)만으로 생성된 54.3포인트의 향상입니다 [1].
모델이 일정할 때, 하네스를 변경하는 것은 모델을 교체하는 것과 거의 비슷한 규모로 Pass@1을 변화시킵니다. 모델 선택이 29.4pp를 더하는 반면, 하네스 선택은 27.4pp를 더합니다 [1].
이 실험은 두 가지 백본 모델 (backbone models, 예: GLM 5.1 및 Qwen 3.6-flash)을 사용하여 8개 언어에 걸쳐 350개의 이슈를 평가하며, 9개의 서로 다른 모델에 대한 스윕 (sweep)도 포함합니다. 다만 더 큰 코드베이스 (code-bases), 도메인 특화 도구 (domain-specific tools), 또는 대안적인 평가 파이프라인 (evaluation pipelines)에 대한 확장성 문제는 여전히 과제로 남아 있습니다 [1].
향후 SWE-Bench 리더보드 (leaderboards)에는 모델과 함께 하네스 변형 (harness variant)을 보고해야 하며, 팀들은 더 큰 LLM에 투자하기 전에 모듈식이고 비용 효율적인 어댑터 계층 (adapter layer)을 우선시해야 합니다.
References
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기