ContractBench: LLM 에이전트는 관찰 계약 (Observation Contracts)을 준수할 수 있는가?

도구 증강 LLM 에이전트 (Tool-augmented LLM agents)는 사전 서명된 URL (presigned URLs), 세션 토큰 (session tokens), OAuth 상태 매개변수 (OAuth state parameters)와 같이 중간 출력이 관찰 계약 (observation contracts)인 API를 호출합니다. 여기서 관찰 계약이란, 생성한 외부 시스템에 의해 이후의 사용이 제한되는 산출물 (artifacts)을 의미합니다. 본 연구에서는 관찰 계약 준수 (시간적 유효성 및 바이트 수준의 무결성 유지)가 창발적(emergent)이면서도 퇴보하기 쉬운 (regression-prone) 능력임을 보여줍니다. 즉, 이는 일반적인 도구 사용 능력 (tool-use ability)에 의해 보장되지 않으며, 더 크거나 최신인 모델에 의해 일관되게 개선되지도 않습니다. 이를 측정하기 위해, 우리는 기존의 어떤 벤치마크도 평가하지 않았던 두 가지 직교하는 실패 모드(orthogonal failure modes)를 조사하는 33개의 이중 축 작업(dual-axis tasks)으로 구성된 벤치마크인 ContractBench를 도입합니다. 두 가지 모드는 유효성 실패 (validity failures, 만료 후 산출물 사용)와 무결성 실패 (integrity failures, 관찰-실행 파이프라인을 통한 산출물의 바이트 손상)입니다. 우리의 평가는 결정론적(deterministic)이고 프로그래밍 방식이며, 가상 시계 (virtual clock)가 시간을 제어하고 SHA-256 해시가 바이트 무결성을 검증합니다. 우리는 각 결과에 실제 API 명세에서 추출한 실패 레이블을 할당합니다. 우리는 38개의 모델을 평가하여 네 가지 발견 사항을 보고합니다: (i) 평가된 모델 중 80%를 넘긴 모델이 없으며, Claude-Opus-4.6이 77.8%로 앞서고 있어 현재의 프런티어 모델 (frontier models)들이 여전히 관찰 계약을 준수하는 데 실패하고 있음을 보여줍니다; (ii) Qwen 3.5 제품군 내에서 4B (0%)와 9B (56.6%) 사이의 급격한 능력 절벽 (capability cliff)이 나타나며, 397B-A17B에서는 70.7%로 완만해집니다: 이 절벽을 지나 나타나는 것은 도구 호출 능력 (tool-call competence)이 아니라 중간 단계의 억제 (mid-trajectory restraint)입니다; (iii) GPT-5 제품군 전반에 걸친 비단조적 스케일링 (non-monotonic scaling): 에이전트적 사후 학습 (agentic post-training)은 아첨 편향에 의한 퇴보 (sycophancy-driven regression)를 통해 준수 능력을 저하시킬 수 있습니다; (iv) 우리의 실패 분류 체계 (failure taxonomy)는 실행 가능한 인컨텍스트 보상 신호 (in-context reward signal)로 작동하여, 42개의 쌍을 이룬 GPT-5.1 실패 사례에서 +7.1 pp의 성능 향상을 가져왔습니다.

Insights

ContractBench: LLM 에이전트는 관찰 계약 (Observation Contracts)을 준수할 수 있는가?

요약

핵심 포인트

댓글

ELSA3D: 통합 3D 이해 및 생성을 위한 탄성 의미 앵커링

$META, 이미지 생성용 AI 모델 출시 및 자체 모델로 제3자 AI 이미지 모델 대체 계획

Figma Code Layers, MCP Server, Motion 및 생성형 셰이더와 플러그인 출시 이후 프롬프팅의 역할에 대해 생각하며

요약: Base MCP의 작동 방식

ELSA3D: 통합 3D 이해 및 생성을 위한 탄성 의미 앵커링

$META, 이미지 생성용 AI 모델 출시 및 자체 모델로 제3자 AI 이미지 모델 대체 계획

Figma Code Layers, MCP Server, Motion 및 생성형 셰이더와 플러그인 출시 이후 프롬프팅의 역할에 대해 생각하며

요약: Base MCP의 작동 방식