제약 조건을 통한 조종 가능성: 코딩 에이전트의 확장 가능한 감독을 위한 기반

코딩 에이전트(Coding agents)는 능력이 뛰어나지만, 인간의 감독(human oversight)이 병목 현상을 일으킵니다. 제약이 없는 에이전트는 보안 리스크를 초래하고, 코드베이스의 확장성(scalability)을 저해하며, 인간의 검토 비용을 점점 더 높게 만듭니다. 우리는 대규모 인간 엔지니어링 팀을 관리하기 위해 수십 년 동안 사용해 온 방식들, 즉 접근 제어(access control), 네트워크 정책(network policies), 도구에 의해 강제되는 엄격한 코딩 컨벤션(coding conventions)이 코딩 에이전트에게도 직접 적용될 수 있으며, 최근의 에이전트 스캐폴딩(agentic scaffolding)보다 (토큰 측면에서) 더 저렴하다고 주장합니다. 우리는 이 원칙에 기반한 엔드 투 엔드(start-to-end) 시스템의 초안을 스케치하고, 확장 가능한 감독(scalable oversight)에 대한 통제된 실험 결과를 보고합니다. 소규모 검토자(Gemma 4 e4b)가 11개의 백도어(backdoors)가 삽입된 Python 코드베이스를 검사합니다. 재현율(Recall)은 54.5%(제약 없음, 도구 없음)에서 90.9%(제약 기반 substrate 및 약 200-LoC 규모의 docs CLI 사용)로 상승하며, substrate와 도구는 각각 독립적으로 기여합니다. 우리는 의도적으로 Python을 선택했습니다. substrate 수준의 감독 이득은 언어가 기본적으로 가장 적은 보장(guarantees)을 제공하는 곳에서 가장 크기 때문이며, 이 원칙은 Rust와 같은 언어로도 확장될 수 있습니다.

Insights

제약 조건을 통한 조종 가능성: 코딩 에이전트의 확장 가능한 감독을 위한 기반

요약

핵심 포인트

댓글

RAG 코드 검색 정확도를 55%에서 95%로 높인 방법

Citi, Bitcoin 및 Ether 가격 목표치 대폭 하향 조정

Robinhood, 7월 4일 출시를 앞두고 Trump Accounts 앱 출시

동일한 공포, 다른 결과: 금과 원유의 엇갈리는 폭락

Citi, Bitcoin 및 Ether 가격 목표치 대폭 하향 조정

Robinhood, 7월 4일 출시를 앞두고 Trump Accounts 앱 출시

동일한 공포, 다른 결과: 금과 원유의 엇갈리는 폭락