arXiv논문2026. 06. 10. 11:47

무엇이 하네스(harness)를 하네스로 만드는가: 에이전트 하네스의 필요충분조건

요약

에이전트 하네스(agent harness)의 모호한 정의를 정립하기 위해 개념 분석을 수행한 연구입니다. 다양한 도구들과의 경계를 명확히 하고, Claude Code 및 OpenHands 등 실제 사례를 통해 구성적 정의를 검증합니다.

핵심 포인트

에이전트 하네스의 명확한 참조 정의 및 계보 재구성
프레임워크, SDK, IDE 플러그인과의 개념적 경계 확립
실제 사례(Claude Code, Aider 등)를 통한 정의 검증
에이전트 시스템의 과학적 비교를 위한 가이드라인 제공

에이전트 하네스 (agent harness)라는 용어는 생성형 인공지능 (generative artificial intelligence)과 함께 소프트웨어 공학 분야에서 널리 유통되고 있습니다. 이 용어는 언어 모델 (language model)을 감싸서 저장소 (repository)에서 동작할 수 있는 코딩 에이전트 (coding agent)로 변환하는 계층을 지칭합니다. 현재 이 용어의 사용은 느슨하고 다의적입니다. 때로는 제품 전체 (Claude Code, Codex CLI)를 의미하기도 하고, 때로는 에이전트를 작업에 실행시키는 평가 스캐폴드 (evaluation scaffold, 예: SWE-bench harness)를 의미하기도 합니다. 또한 때로는 에이전트 프레임워크 (agent framework), SDK, IDE 플러그인 (IDE plugin), 또는 오케스트레이터 (orchestrator)와 혼용되기도 합니다. 현재 부족한 점은 도구로서 작동할 수 있는, 즉 사례들을 일관되게 포함하거나 제외할 수 있는 참조 정의입니다. 우리는 영구 식별자 (persistent identifiers)가 포함된 저작물과 공식 문서, 용어집, 엔지니어링 보고서와 같은 주요 회색 문헌 (grey-literature) 소스를 결합한 개념 분석을 통해 해당 정의를 구축합니다. 우리는 말의 마구 (horse's tack)에서부터 클래식 테스트 하네스 (classic test harness), 머신러닝 평가 하네스 (machine-learning evaluation harness), 그리고 최종적으로 에이전트 하네스 (agent harness)에 이르기까지 이 용어의 계보를 재구성합니다. 그런 다음 시스템이 에이전트 하네스가 되기 위한 필요충분조건을 명시하는 구성적 정의 (constitutive definition)를 제안하고, 이를 포함 및 제외 테스트로 실행 가능하게 만들며, 에이전트 프레임워크, 에이전트 SDK, IDE 플러그인, 평가 하네스 (eval harness), 그리고 오케스트레이터와 개념적 경계를 긋습니다. 우리는 이 정의를 6개의 실제 하네스 (Claude Code, Codex CLI, Aider, Cline, OpenHands, SWE-agent)와 의도적인 엣지 케이스 (edge cases)에 적용하였으며, 테스트는 일관되게 포함 및 제외를 수행했습니다. 마지막으로 설계 긴장 축 (design tension axes)에 따라 정리된 연구 과제를 제시하며 마무리합니다. 본 연구의 기여는 에이전트 하네스에 대한 실행 가능한 정의와 공유된 어휘를 제공함으로써, 엔지니어링 관행과 에이전트 시스템 (agentic systems)의 과학적 비교를 안내할 수 있도록 하는 데 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

무엇이 하네스(harness)를 하네스로 만드는가: 에이전트 하네스의 필요충분조건

요약

핵심 포인트

댓글