arXiv논문2026. 06. 30. 13:02

도구 증강 에이전트에서의 엔티티 바인딩 실패 (Entity Binding Failures)

요약

도구 증강 에이전트가 올바른 도구를 선택하더라도 잘못된 외부 엔티티를 대상으로 동작하는 '엔티티 바인딩 실패' 문제를 연구합니다. 본 논문은 이 문제를 신뢰성 및 안전성 측면에서 분석하고, 이를 해결하기 위한 엔티티 인식 실행 메커니즘을 제안합니다.

핵심 포인트

도구 선택의 정확성과 엔티티 선택의 정확성 분리
엔티티 바인딩 실패에 대한 새로운 분류 체계 도입
신뢰도 기반 바인딩 및 모호성 해소 메커니즘 평가
엔티티 인식 방법론이 잘못된 엔티티 행동을 제거함을 증명

도구 증강 언어 모델 에이전트 (Tool-augmented language-model agents)는 흔히 올바른 도구를 선택하는지, 유효한 API 인자 (API arguments)를 생성하는지, 그리고 요청된 작업을 완료하는지를 기준으로 평가됩니다. 그러나 에이전트가 올바른 도구를 선택하더라도 잘못된 외부 엔티티 (external entity)에 대해 동작할 수 있습니다. 예를 들어, "출시에 대해 Alex에게 이메일을 보내줘"라는 요청은 에이전트가 잘못된 Alex에게 연락하거나, 잘못된 출시 문서를 첨부하거나, 잘못된 스레드에 답장하거나, 잘못된 고객 계정을 업데이트하는 결과로 이어질 수 있습니다. 우리는 이러한 오류를 엔티티 바인딩 실패 (entity binding failures)라고 부릅니다. 본 논문은 엔티티 바인딩 실패를 도구 증강 에이전트의 별개인 신뢰성 및 안전성 문제로 연구합니다. 우리는 도구의 정확성 (tool correctness)과 엔티티의 정확성 (entity correctness) 사이의 분리를 공식화하고, 기업 워크플로에서의 잘못된 엔티티 실패에 대한 분류 체계 (taxonomy)를 도입하며, 엔티티 해상도 전제 조건 (entity-resolution preconditions), 신뢰도 기반 바인딩 (confidence-gated binding), 모호성 하에서의 명확화 (clarification under ambiguity), 그리고 출처 추적 (provenance tracking)을 포함한 엔티티 인식 실행 메커니즘을 평가합니다. 60개의 작업, 5개의 모델 백엔드 (model backends), 6개의 도구 사용 방법을 통한 통제된 진단 평가 결과, 모든 방법이 0.0%의 잘못된 도구 오류 (wrong-tool error)를 달성했으나, 행동 중심 베이스라인 (action-oriented baselines)은 여전히 실행의 24.0-26.0%에서 잘못된 엔티티 행동을 생성했습니다. 엔티티 인식 방법들은 이 설정에서 잘못된 엔티티 행동과 위험 가중 잘못된 엔티티 노출을 제거했으나, 모호성 상황에서 작업을 유예함으로써 직접적인 작업 완료율은 감소시켰습니다. 이러한 발견은 안전한 도구 사용을 위해 올바른 도구를 선택하는 것뿐만 아니라, 행동을 취하기 전에 자연어 참조 (natural-language references)를 올바른 실제 세계의 엔티티에 신뢰성 있게 바인딩하는 것이 필요함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

도구 증강 에이전트에서의 엔티티 바인딩 실패 (Entity Binding Failures)

요약

핵심 포인트

댓글