arXiv논문2026. 05. 20. 12:03

코드의 청결도가 코딩 에이전트(Coding Agents)에 영향을 미치는가? 통제된 최소 쌍(Minimal-Pair) 연구

요약

본 연구는 코드의 구조적·스타일적 청결도가 자율 코딩 에이전트의 성능에 미치는 영향을 최소 쌍(Minimal-Pair) 실험을 통해 분석했습니다. Claude Code를 활용한 실험 결과, 코드 청결도가 에이전트의 작업 성공률에는 영향을 주지 않았으나, 토큰 사용량과 파일 재방문 횟수 등 운영 효율성 측면에서는 유의미한 차이를 만드는 것으로 나타났습니다.

핵심 포인트

코드 청결도는 에이전트의 작업 통과율(pass rate)에는 직접적인 영향을 미치지 않음
깨끗한 코드는 에이전트의 토큰 사용량을 약 7~8% 절감함
코드 청결도가 높을수록 에이전트의 파일 재방문 횟수가 34% 감소하여 탐색 효율성이 향상됨
전통적인 코드 유지보수 원칙은 AI 주도 개발 환경에서도 비용과 효율성 측면에서 여전히 유효함

자율 코딩 에이전트(autonomous coding agents)의 채택이 급격히 증가함에 따라, 이들에 대한 평가는 주로 대상 코드베이스(codebase)를 고정시킨 상태에서의 작업 완료율(task completion rates)에 집중되어 왔습니다. 이는 한 가지 중요한 질문을 남깁니다. 즉, 기반 코드의 구조적 및 스타일적 품질, 즉 "청결도(cleanliness)"가 에이전트가 코드를 탐색하고 수정하는 능력에 영향을 미치는가 하는 점입니다. 에이전트의 능력으로부터 코드 청결도의 효과를 분리하기 위해, 우리는 최소 쌍(minimal pairs)을 중심으로 구축된 평가 프로토콜을 도입합니다. 여기서 최소 쌍이란 아키텍처(architecture), 의존성(dependencies), 외부 동작(external behaviour)은 일치하지만, 정적 분석 규칙 위반(static-analysis rule violations) 및 인지 복잡도(cognitive complexity) 측면에서 차이가 나는 저장소(repositories)를 의미합니다. 이 쌍들은 깨끗한 저장소를 저하시키거나 지저분한 저장소를 깨끗하게 만드는 에이전트 파이프라인(agent pipelines)을 통해 양방향으로 구성됩니다. 우리는 이러한 6개의 쌍에 걸쳐 33개의 작업을 작성하였으며, 애플리케이션의 공개 인터페이스(public surface)를 통한 숨겨진 테스트(hidden tests)로 이를 평가했습니다. Claude Code를 사용한 660회의 실험 결과, 코드 청결도는 에이전트의 통과율(pass rate)을 변화시키지 않았습니다. 그러나 코드 청결도는 에이전트의 운영 흔적(operational footprint)을 실질적으로 변화시켰습니다. 더 깨끗한 코드에서 작업하는 에이전트는 토큰(tokens)을 7~8% 적게 사용하며, 파일 재방문(file revisitations) 횟수를 34% 줄였습니다. 우리의 연구 결과는 전통적인 유지보수성 원칙(maintainability principles)이 AI 주도 개발 시대에도 여전히 매우 유효하며, 코딩 에이전트의 계산 비용(computational cost)과 탐색 효율성(navigational efficiency)을 결정짓는다는 것을 시사합니다. 코드 청결도는 모델 선택(model choice), 하네스(harness), 프롬프팅(prompting)과 함께 에이전트의 행동에 실질적인 영향을 미치는 요소로 자리 잡았습니다.

AI 자동 생성 콘텐츠

원문 바로가기

코드의 청결도가 코딩 에이전트(Coding Agents)에 영향을 미치는가? 통제된 최소 쌍(Minimal-Pair) 연구

요약

핵심 포인트

댓글