ContractBench: LLM 에이전트는 관찰 계약 (Observation Contracts)을 준수할 수 있는가?
요약
본 연구는 LLM 에이전트가 관찰 계약(Observation Contracts)을 준수하는 능력을 평가하기 위해 ContractBench라는 새로운 벤치마크를 제안합니다. 이 능력은 일반적인 도구 사용 능력과는 별개로, 시간적 유효성 및 바이트 수준의 무결성을 유지해야 하는 중간 출력을 다루는 복잡한 문제입니다. 연구 결과에 따르면, 현재의 최신 프런티어 모델들조차도 관찰 계약 준수에서 어려움을 겪고 있으며, 특정 모델 제품군에서는 급격한 능력 절벽이 나타나거나 아첨 편향으로 인해 성능이 저하되는 현상 등이 발견되었습니다.
핵심 포인트
- LLM 에이전트의 '관찰 계약' 준수는 일반적인 도구 사용 능력과는 별개의, 취약하고 퇴보하기 쉬운(regression-prone) 능력이다.
- ContractBench는 유효성 실패와 무결성 실패라는 두 가지 직교하는 모드를 조사하며, 결정론적이고 프로그래밍 방식의 평가를 수행한다.
- 현재 최고 성능을 보이는 모델들조차 관찰 계약 준수율이 80%를 넘기지 못하고 있어, 프런티어 모델들의 개선 여지가 남아있음을 시사한다.
- 모델 크기나 학습 방식에 따라 능력 절벽(capability cliff)이나 아첨 편향으로 인한 성능 저하 등 비단조적인 스케일링 패턴이 관찰되었다.
- 제안된 실패 분류 체계는 인컨텍스트 보상 신호로 활용되어 실제 모델의 성능 향상을 가져올 수 있음을 입증했다.
도구 증강 LLM 에이전트 (Tool-augmented LLM agents)는 사전 서명된 URL (presigned URLs), 세션 토큰 (session tokens), OAuth 상태 매개변수 (OAuth state parameters)와 같이 중간 출력이 관찰 계약 (observation contracts)인 API를 호출합니다. 여기서 관찰 계약이란, 생성한 외부 시스템에 의해 이후의 사용이 제한되는 산출물 (artifacts)을 의미합니다. 본 연구에서는 관찰 계약 준수 (시간적 유효성 및 바이트 수준의 무결성 유지)가 창발적(emergent)이면서도 퇴보하기 쉬운 (regression-prone) 능력임을 보여줍니다. 즉, 이는 일반적인 도구 사용 능력 (tool-use ability)에 의해 보장되지 않으며, 더 크거나 최신인 모델에 의해 일관되게 개선되지도 않습니다. 이를 측정하기 위해, 우리는 기존의 어떤 벤치마크도 평가하지 않았던 두 가지 직교하는 실패 모드(orthogonal failure modes)를 조사하는 33개의 이중 축 작업(dual-axis tasks)으로 구성된 벤치마크인 ContractBench를 도입합니다. 두 가지 모드는 유효성 실패 (validity failures, 만료 후 산출물 사용)와 무결성 실패 (integrity failures, 관찰-실행 파이프라인을 통한 산출물의 바이트 손상)입니다. 우리의 평가는 결정론적(deterministic)이고 프로그래밍 방식이며, 가상 시계 (virtual clock)가 시간을 제어하고 SHA-256 해시가 바이트 무결성을 검증합니다. 우리는 각 결과에 실제 API 명세에서 추출한 실패 레이블을 할당합니다. 우리는 38개의 모델을 평가하여 네 가지 발견 사항을 보고합니다: (i) 평가된 모델 중 80%를 넘긴 모델이 없으며, Claude-Opus-4.6이 77.8%로 앞서고 있어 현재의 프런티어 모델 (frontier models)들이 여전히 관찰 계약을 준수하는 데 실패하고 있음을 보여줍니다; (ii) Qwen 3.5 제품군 내에서 4B (0%)와 9B (56.6%) 사이의 급격한 능력 절벽 (capability cliff)이 나타나며, 397B-A17B에서는 70.7%로 완만해집니다: 이 절벽을 지나 나타나는 것은 도구 호출 능력 (tool-call competence)이 아니라 중간 단계의 억제 (mid-trajectory restraint)입니다; (iii) GPT-5 제품군 전반에 걸친 비단조적 스케일링 (non-monotonic scaling): 에이전트적 사후 학습 (agentic post-training)은 아첨 편향에 의한 퇴보 (sycophancy-driven regression)를 통해 준수 능력을 저하시킬 수 있습니다; (iv) 우리의 실패 분류 체계 (failure taxonomy)는 실행 가능한 인컨텍스트 보상 신호 (in-context reward signal)로 작동하여, 42개의 쌍을 이룬 GPT-5.1 실패 사례에서 +7.1 pp의 성능 향상을 가져왔습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기