본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 06:11

코딩 에이전트 설정 파일의 지침 준수: 네 가지 파일 구조 변수에 대한 요인 설계 연구

요약

본 연구는 최첨단 코딩 에이전트가 설정 파일의 지침을 얼마나 잘 따르는지(준수도)를 구조적 변수를 중심으로 요인 설계 방식으로 분석했습니다. 1,650회의 Claude Code CLI 세션 데이터를 사용하여 네 가지 구조적 변수(파일 크기, 지침 위치 등)와 코딩 작업 간의 상호작용 효과를 측정했으나, 이들 구조적 변수들이 준수도에 미치는 유의미한 영향은 발견하지 못했습니다. 대신, 가장 큰 효과는 세션 내에서 에이전트가 생성하는 함수 개수 증가에 따른 단계별 준수 확률 감소(비단조적 경향)였으며, 이는 코딩 작업과 함수 생성 순서에 따라 준수도가 체계적으로 변화함을 시사합니다.

핵심 포인트

  • 코딩 에이전트의 설정 파일 지침 준수는 구조적 변수(파일 크기, 위치 등)보다는 세션 내 진행 과정에 더 크게 의존한다.
  • 가장 큰 효과는 세션 길이와 관련하여 함수 생성 단계별 준수 확률이 비단조적으로 감소하는 경향이었다 (OR = 0.944).
  • 구조적 변수(파일 구조, 충돌 등)를 조작하더라도 통계적으로 유의미한 준수도 향상을 입증하기 어려웠다.
  • 준수도는 코딩 작업 자체와 세션 내에서 함수가 생성되는 순서에 따라 체계적인 변화를 보였다.

최첨단(Frontier) 코딩 에이전트는 세션 시작 시 설정 파일(CLAUDE.md, AGENTS.md, Cursor Rules)을 읽고 그 안에 있는 규칙을 따를 것으로 예상됩니다. 실무자들은 구조적 선택(파일 크기, 지침 위치, 파일 아키텍처, 인접 파일 간의 모순)이 준수도에 측정 가능한 영향을 미친다고 가정합니다. 우리는 네 가지 조작 변수를 사용하여 이러한 선택들에 대한 체계적인 요인 설계 연구를 수행했으며, 1,650회의 Claude Code CLI 세션(16,050개의 함수 수준 관찰)에서 두 개의 TypeScript 코드베이스, 세 가지 최첨단 모델(주로 Sonnet 4.6이며, Opus 4.6은 CLI 매칭을 위한 교차 모델 검사로, 그리고 Opus 4.7은 CLI 버전 혼란 변수 하에 기술적으로 보고됨), 그리고 다섯 가지 코딩 작업을 대상으로 준수도를 측정했습니다. 우리는 베이즈(Bayesian) 보조 도구를 사용한 혼합 효과 모델(mixed-effects models)을 사용했습니다. 네 가지 구조적 변수나 세 가지 이원 상호작용 중 어느 것도 다중 검정 교정 후 감지 가능한 대비를 생성하지 못했습니다. 크기와 충돌에 대한 귀무가설은 긍정적인 귀무-베이즈 요인(BF10이 0.05에서 0.10 사이)에 의해 지지되었으며, 위치와 아키텍처에 대한 귀무가설은 베이즈 요인 지원 없이 기각하지 못하는 실패로 나타났습니다. 우리가 측정한 가장 큰 효과는 세션 내(within-session)였습니다: 에이전트가 생성하는 추가 함수 하나당 테스트한 세션 길이 범위 내에서 단계별 준수 확률이 약 5.6% 낮아지는 것과 관련이 있었습니다 (OR = 0.944). 다만, 이 관계는 상수적인 단계별 효과라기보다는 비단조적(non-monotonic)입니다.

이러한 결과는 두 번째 TypeScript 코드베이스와 매칭된 설정에서 Opus 4.6을 사용하여 재현되었습니다. 이는 사전에 지정된 것이 아니라 분석 과정에서 파악된 것입니다. 테스트된 조건 내에서 파일 구조 변수들은 감지 가능한 대비(contrast)를 생성하지 않았으며, 준수도는 코딩 작업과 각 세션에서 생성되는 함수들의 순서에 따라 체계적으로 변화했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0