arXiv논문2026. 06. 17. 10:53

소프트웨어 위임 계약: AI 코딩 에이전트 작업의 검토 가능성 측정

요약

AI 코딩 에이전트에게 명시적인 소프트웨어 위임 계약을 제공했을 때의 효과를 분석한 연구입니다. 실험 결과, 계약은 작업의 객관적 정확성을 높이지는 않았으나, 검토자의 모호성을 줄이고 증거 충분성을 높여 검토 가능성을 크게 개선했습니다.

핵심 포인트

명시적 위임 계약은 코딩 에이전트 작업의 검토 가능성(reviewability)을 향상시킴
증거 충분성 개선 및 검토자 모호성 감소 효과 확인
계약 도입 시 에이전트 토큰 사용량과 실제 소요 시간이 증가함
정확성보다는 작업 결과에 대한 신뢰할 수 있는 검토 환경 제공에 초점

AI 코딩 에이전트(AI coding agents)는 점점 더 할당된 소프트웨어 작업을 수락하고, 제한된 권한 하에 저장소(repositories)를 수정하며, 검토를 위한 작업 패키지를 반환하고 있습니다. 이전 연구에서는 위임된 코딩 작업의 분석 단위로서 작업(task), 권한(authority), 반환된 작업 패키지(returned work package), 그리고 수락 컨텍스트(acceptance context)를 포함하는 소프트웨어 위임 계약(software delegation contract)을 제안했으나, 그 효과를 측정하지는 않았습니다. 본 논문은 코딩 에이전트를 위한 명시적 위임 계약(explicit delegation contracts)에 대한 통제된 파일럿 연구를 보고합니다. 우리는 결함(defects)과 문서화 공백(documentation gaps)이 심어진 의존성 없는 TypeScript API 작업 환경을 구축하였고, 5개 계열에 걸쳐 10개의 작업을 작성하였으며, 세 가지 조건(현실적인 이슈 스타일 프롬프트, 명시적 위임 계약, 그리고 필수 증거 번들(evidence bundle)이 포함된 계약) 하에서 두 가지 모델 계층(model tiers)에 걸쳐 64회의 에이전트 실행을 수행했습니다. 각 실행은 숨겨진 수락 테스트(acceptance tests), 변이 체크(mutation checks), 그리고 범위 분석(scope analysis)으로 점수가 매겨졌으며, 이후 3명의 독립적인 조건 블라인드(condition-blinded) 모델 기반 검토자가 고정된 루브릭(rubric)을 사용하여 총 192회의 검토를 수행했습니다. 명시적 계약은 객관적인 작업 결과(objective task outcomes)를 개선하지는 않았습니다. 64회의 실행 모두 숨겨진 수락 체크를 통과했으며, 범위 위반(scope violations)은 0건이었습니다. 하지만 검토 가능성(reviewability)은 개선했습니다. 증거 충분성(evidence sufficiency)은 30회의 쌍체 비교 중 22회에서 개선되었고 악화된 경우는 없었습니다 (+5점 척도에서 +0.83, p < 0.0001, Cliff's delta = 0.66). 검토자 모호성(reviewer ambiguity)은 감소했습니다 (p = 0.035). 변경된 파일 목록(changed-file lists), 알려진 한계(known-limitations) 섹션, 잔류 위험(residual-risk) 섹션, 그리고 검토자 체크리스트(reviewer checklists)는 대부분 계약에서 요구할 때만 나타났습니다. 계약은 에이전트 토큰(agent tokens)을 +13%, 실제 소요 시간(wall-clock time)을 +38% 증가시켰으며, 성능이 낮은 모델 계층에서 그 효과가 더 컸습니다. 이러한 작은 규모의 작업에서 위임 계약은 정확성(correctness)보다는 검토 가능성(reviewability)을 확보해 주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

소프트웨어 위임 계약: AI 코딩 에이전트 작업의 검토 가능성 측정

요약

핵심 포인트

댓글