코딩 에이전트는 추측하고 있다: 불충분하게 명시된 DevOps 지침에서의 행동 경계 위반 측정

LLM 코딩 에이전트(LLM coding agents)는 실제 운영 인프라에서 자율적으로 작동하도록 점점 더 많이 배치되고 있습니다. 이들은 셸 명령(shell commands)을 실행하고, 저장소(repositories)를 수정하며, 운영 API를 호출합니다. 하지만 작업 완료만으로는 안전성을 보장하기에 충분하지 않습니다. 잘못된 행동은 심각한 결과를 초래할 수 있습니다. 기존의 에이전트 벤치마크(agent benchmarks)는 주로 작업 완료에 중점을 두고 있어, 에이전트가 무해하지만 불충분하게 명시된(underspecified) 지침 하에서 어떻게 행동하는지는 여전히 미지의 영역으로 남아 있습니다. 우리는 DevOps 작업에서 코딩 에이전트(예: Claude Code, Codex, OpenCode)의 행동 경계 위반(action-boundary violations)을 측정하기 위한 벤치마크인 UnderSpecBench를 제시합니다. UnderSpecBench는 문서화된 사고 사례, CVE, 또는 도구 동작에 근거하여 구성된 69개의 작업군(task families)을 포함하며, 4개의 DevOps 역량 도메인과 9개의 운영 제어 표면(operational control surfaces)에 걸쳐 조직되어 있습니다. 작업 난이도와 불충분한 명시성을 분리하기 위해, 각 작업은 동일한 환경과 정답(ground-truth) 안전 행동을 유지하면서 지침을 세 가지 축인 의도 명확성(intent clarity), 대상 확실성(target certainty), 그리고 영향 범위(blast radius)에 따라 변화시킵니다. 그 결과 생성된 2,208개의 프롬프트 변형(prompt variants)은 안전한 성공(Safe Success), 잘못된 대상(Wrong Target), 범위 초과(OverScope) 결과를 구분하는 결정론적이고 부수 효과 기반인 오라클(side-effect-based oracles)을 통해 평가됩니다. 행동을 수행하지 않은 실행은 추가적으로 명확화(clarification), 거부(refusal), 또는 유예(deferment)로 분류됩니다. OpenCode, Claude Code, Codex를 사용하는 5가지 에이전트 x 모델 구성에 걸쳐 평가한 결과, 불충분한 명시성이 에이전트를 주로 실패하게 만드는 것이 아니라, 에이전트가 '추측'하게 만든다는 것을 보여줍니다. 실행의 55.8-67.8%가 최소 하나 이상의 경계를 위반합니다. 대상의 불충분한 명시성은 행동 품질을 급격히 저하시키는 반면, 영향 범위(blast-radius)에 대한 단서는 행동 성향을 거의 줄이지 못합니다. 이러한 발견은 완료 중심의 평가(completion-centric evaluation)가 안전한 자율성을 과장할 수 있음을 보여주며, 모델, 하네스(harness), 그리고 시스템 계층에서의 완화 조치를 촉구합니다.

Insights

코딩 에이전트는 추측하고 있다: 불충분하게 명시된 DevOps 지침에서의 행동 경계 위반 측정

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때