코딩 에이전트 설정 파일의 지침 준수: 네 가지 파일 구조 변수에 대한 요인 설계 연구

최첨단(Frontier) 코딩 에이전트는 세션 시작 시 설정 파일(CLAUDE.md, AGENTS.md, Cursor Rules)을 읽고 그 안에 있는 규칙을 따를 것으로 예상됩니다. 실무자들은 구조적 선택(파일 크기, 지침 위치, 파일 아키텍처, 인접 파일 간의 모순)이 준수도에 측정 가능한 영향을 미친다고 가정합니다. 우리는 네 가지 조작 변수를 사용하여 이러한 선택들에 대한 체계적인 요인 설계 연구를 수행했으며, 1,650회의 Claude Code CLI 세션(16,050개의 함수 수준 관찰)에서 두 개의 TypeScript 코드베이스, 세 가지 최첨단 모델(주로 Sonnet 4.6이며, Opus 4.6은 CLI 매칭을 위한 교차 모델 검사로, 그리고 Opus 4.7은 CLI 버전 혼란 변수 하에 기술적으로 보고됨), 그리고 다섯 가지 코딩 작업을 대상으로 준수도를 측정했습니다. 우리는 베이즈(Bayesian) 보조 도구를 사용한 혼합 효과 모델(mixed-effects models)을 사용했습니다. 네 가지 구조적 변수나 세 가지 이원 상호작용 중 어느 것도 다중 검정 교정 후 감지 가능한 대비를 생성하지 못했습니다. 크기와 충돌에 대한 귀무가설은 긍정적인 귀무-베이즈 요인(BF10이 0.05에서 0.10 사이)에 의해 지지되었으며, 위치와 아키텍처에 대한 귀무가설은 베이즈 요인 지원 없이 기각하지 못하는 실패로 나타났습니다. 우리가 측정한 가장 큰 효과는 세션 내(within-session)였습니다: 에이전트가 생성하는 추가 함수 하나당 테스트한 세션 길이 범위 내에서 단계별 준수 확률이 약 5.6% 낮아지는 것과 관련이 있었습니다 (OR = 0.944). 다만, 이 관계는 상수적인 단계별 효과라기보다는 비단조적(non-monotonic)입니다.

이러한 결과는 두 번째 TypeScript 코드베이스와 매칭된 설정에서 Opus 4.6을 사용하여 재현되었습니다. 이는 사전에 지정된 것이 아니라 분석 과정에서 파악된 것입니다. 테스트된 조건 내에서 파일 구조 변수들은 감지 가능한 대비(contrast)를 생성하지 않았으며, 준수도는 코딩 작업과 각 세션에서 생성되는 함수들의 순서에 따라 체계적으로 변화했습니다.

Insights

코딩 에이전트 설정 파일의 지침 준수: 네 가지 파일 구조 변수에 대한 요인 설계 연구

요약

핵심 포인트

댓글

MaxLinear, 2026년 광학 데이터 센터 매출 전망치를 2억 1,000만~2억 3,000만 달러로 상향하며 3분기 매출을 2억 1

Digital Realty, 42.5억~47.5억 달러 규모의 자본 지출 (Capex) 계획을 바탕으로 프로모트를 제외한 2026년 주당 핵심

무작위 설계를 통한 KV-Cache 제거를 위한 오류 인증 (Error Certificates)

GS-Agent: 생성형 시뮬레이션을 통한 4D 물리 세계 구축

MaxLinear, 2026년 광학 데이터 센터 매출 전망치를 2억 1,000만~2억 3,000만 달러로 상향하며 3분기 매출을 2억 1

Digital Realty, 42.5억~47.5억 달러 규모의 자본 지출 (Capex) 계획을 바탕으로 프로모트를 제외한 2026년 주당 핵심

무작위 설계를 통한 KV-Cache 제거를 위한 오류 인증 (Error Certificates)

GS-Agent: 생성형 시뮬레이션을 통한 4D 물리 세계 구축