arXiv논문2026. 05. 13. 04:13

CIVeX: 언어 에이전트의 인과 개입 검증 (Causal Intervention Verification)

요약

본 논문은 언어 에이전트가 수행하는 행동이 실제로 인과적 효과를 갖는지 검증하는 '인과 개입 검증기(CIVeX)'를 제안합니다. 기존의 안전장치들은 단순히 스키마나 출처만 확인할 뿐, 상태 변경에 따른 진정한 인과적 영향을 보장하지 못하기 때문에, CIVeX는 구조적 인과 쿼리를 사용하여 행동을 분석하고 EXECUTE, REJECT, EXPERIMENT, ABSTAIN 네 가지 판결 중 하나를 반환합니다. 실험 결과, CIVeX는 중간 및 적대적 교란 상황에서 오탐지 실행(false executions)을 '제로'로 달성하며, 기존의 LLM 기반 검증기들보다 훨씬 높은 신뢰성과 정확도를 입증했습니다.

핵심 포인트

언어 에이전트의 안전성은 단순한 스키마/출처 확인을 넘어, 행동의 인과적 개입(causal intervention) 식별 가능성 검증이 필수적이다.
CIVeX는 구조적 인과 쿼리를 사용하여 제안된 행동-상태 그래프를 분석하고, EXECUTE, REJECT, EXPERIMENT, ABSTAIN 네 가지 판결을 내린다.
CIVeX는 적대적 교란(adversarial confounding) 환경에서 오탐지 실행률을 '제로'로 달성하며, 기존 LLM 기반 검증기보다 월등히 높은 성능을 보인다.
신뢰할 수 있는 도구 사용의 핵심은 행동 자체의 유효성이 아니라, 그 행동이 인과적으로 식별 가능한 개입인지 여부이다.

유효한 도구 호출(tool call)이 반드시 유효한 개입(intervention)을 의미하는 것은 아닙니다. 도구를 사용하는 언어 에이전트는 스키마 검증기(schema validators), 정책 필터(policy filters), 출처 확인(provenance checks), 상태 예측기(state predictors), 그리고 자체 검증(self-verification)에 의해 보호받지만, 이러한 안전장치들은 상태를 변경하는 행동이 식별 가능한 인과적 효과(causal effect)를 갖는다는 것을 인증하지 못합니다. 교란된 워크플로우(confounded workflows)에서는 관찰 로그에서 최적으로 보이는 행동이라도 실행될 경우 유틸리티를 감소시킬 수 있습니다. 본 논문에서는 제안하는 행동을 확정된 행동-상태 그래프(committed action-state graph)에 대한 구조적 인과 쿼리(structural causal queries)로 매핑하고, 식별 가능성(identifiability)을 확인하며, 네 가지 감사 가능한 판결 중 하나인 EXECUTE, REJECT, EXPERIMENT, 또는 ABSTAIN을 반환하는 인과 개입 검증기(causal intervention verifier), CIVeX를 소개합니다. 실행(Execution)을 위해서는 그래프 약속(graph commitments)을 담은 가정 범위의 인과 인증서(assumption-scoped causal certificate), 식별화 논거(identification argument), 한쪽 방향 하한 신뢰 구간(one-sided lower confidence bound, LCB), 출처(provenance), 그리고 위험 제한(risk limits)이 필요합니다. Causal-ToolBench (1,890 인스턴스, 7 시드)에서 CIVeX는 중간 및 적대적 교란 상황에서 관찰된 오탐지 실행(false executions)을 '제로'로 달성했습니다. 적대적 교란 하에서는 정확도 84.9%, 오라클 유틸리티의 81.1% (+2.23 vs +2.76)에 도달하며, 제약된 유틸리티가 제로-오탐지 실행이라는 제약 조건 하에서 AlwaysAbstain 바닥값(floor)을 초과하는 유일한 비-오라클 방식입니다. IHDP 및 ZOZO Open Bandit (균일 무작위 참 값(uniform-random ground truth)을 가진 실제 운영 로그)에서는 CIVeX가 오라클의 올바른 실행(correct-execution)에 0.1pp 차이로 일치하며, 나이브 베이스라인 대비 실행당 오탐지 실행률을 >=50배 감소시킵니다.

사고의 사슬(chain-of-thought) LLM 검증기(Claude Opus, Sonnet)는 간결한 베이스라인 대비 오탐지 실행을 한 자릿수만큼 줄이지만, 적대적 혼란(adversarial confounding) 하에서는 Opus의 유용성이 CIVeX의 74% 수준으로 떨어집니다. 신뢰할 수 있는 도구 사용에 필요한 누락된 원시 요소는 행동의 유효성(action validity)이 아니라 개입 식별 가능성(intervention identifiability)입니다.

AI 자동 생성 콘텐츠

원문 바로가기

CIVeX: 언어 에이전트의 인과 개입 검증 (Causal Intervention Verification)

요약

핵심 포인트

댓글