MANTRA: SMT-Validated Compliance Benchmarks for Tool-Using LLM Agents

도구 사용 대형 언어 모델 (LLM) 에이전트는 신뢰할 수 있는 행동을 엄격한 절차 매뉴얼에 의해 규제되는 환경에서 점점 더 많이 배포되고 있습니다. 이러한 에이전트가 해당 매뉴얼의 규칙을 준수하는지 확인하는 것은 도전적인 과제입니다. 이는 에이전트 행동이 도구 호출의 실행 트레이스로 나타나는 반면, 매뉴얼은 자연어로 인간을 위해 작성되었기 때문입니다. 기존 LLM 에이전트 평가는 수동으로 구성된 벤치마크 또는 LLM 기반 판별자를 의존하며, 이는 복잡한 장기 지평 매뉴얼에 대해 확장성이나 신뢰성이 부족합니다. 이러한 한계를 극복하기 위해, 우리는 자연어 매뉴얼 및 도구 스키마에서 자동으로 검증 가능한 준수 벤치마크를 생성하는 프레임워크인 MANTRA 를 제시합니다. MANTRA 는 (i) 절차적 의존성을 포착하는 기호 세계 모델과 (ii) 주어진 작업에 대한 트레이스 수준의 준수 검증을 독립적으로 생성하며, SMT 해결을 사용하여 일관성을 검증합니다. 구조화된 수정 루프는 불일치를 해결하며, 인간 개입은 오직 대안으로만 필요합니다. 이는 공식적으로 검증된 벤치마크를 제공합니다. 중요한 것은 MANTRA 가 임의 도메인과 장기 절차 매뉴얼을 지원하며, 준수 검증을 동반하는 도전적인 작업을 자동으로 유도하기 위해 활용되는 조정 가능한 작업 복잡성 개념을 제공한다는 것입니다. MANTRA 를 사용하여 6 개의 도메인에 걸쳐 285 개의 작업을 가진 새로운 벤치마크 세트를 구축했으며, 최소한의 인간 노력이 필요한 경우 50 페이지 이상의 매뉴얼까지 확장됩니다. 경험적으로, 우리는 기존 벤치마크에 비해 준수 검사가 더 풍부하고 강력한 제약 강제력을 가지고 있음을 보여줍니다. 또한, 검사의 정밀도는 에이전트의 실패 모드를 디버깅하는 데 사용할 수 있습니다. 이러한 결과는 자동화된 벤치마크 생성과 공식적 기반 검증 방법을 결합함으로써 도구 사용 에이전트의 확장 가능하고 신뢰할 수 있는 벤치밍이 가능함을 보여줍니다.

Insights

MANTRA: SMT-Validated Compliance Benchmarks for Tool-Using LLM Agents

요약

핵심 포인트

댓글

Claude Opus 5가 오늘 출시될 예정이라는 보고 — 유출된 "Honeycomb EAP" 모델이 가리키는 특징:

Forward-Deployed Engineer(FDE)란 무엇인가?

ANTHROPIC 🔥: Claude Voice Mode가 Opus 4.8 및 Sonnet 5 모델 지원과 함께 업그레이드되었습니다!

속보: Alphabet($GOOGL)의 Anthropic 지분이 약 $124,000,000,000로 급증했습니다.

Claude Opus 5가 오늘 출시될 예정이라는 보고 — 유출된 "Honeycomb EAP" 모델이 가리키는 특징:

Forward-Deployed Engineer(FDE)란 무엇인가?

ANTHROPIC 🔥: Claude Voice Mode가 Opus 4.8 및 Sonnet 5 모델 지원과 함께 업그레이드되었습니다!

속보: Alphabet($GOOGL)의 Anthropic 지분이 약 $124,000,000,000로 급증했습니다.