CFAgentBench: 자율 건설-금융 에이전트를 위한 재현 가능한 환경 및 벤치마크
요약
자율 건설-금융 에이전트의 성능을 평가하기 위한 재현 가능한 벤치마크인 CFAgentBench를 소개합니다. 실제 소프트웨어 스택을 모사한 실행 가능한 환경을 통해 에이전트의 기능적 정확성을 엄격하게 검증합니다.
핵심 포인트
- ERP, 프로젝트 관리, 은행 포털 등 실제 건설-금융 워크플로우 반영
- LLM 판정관 대신 상태 차이 분석 등 실행 가능한 평가기 사용
- 자금 이동 가드 원칙을 통해 인간의 승인이 필요한 단계 검증
- 단일 시도 정확도와 반복 시 성공률 간의 격차 확인
우리는 자율 건설-금융 (construction-finance) 에이전트를 위한 재현 가능하고 자체 호스팅이 가능한 환경이자 벤치마크인 CFAgentBench를 소개합니다. 여기서 에이전트란 미국 건설 금융 팀이 사용하는 실제 소프트웨어 스택인 ERP, 프로젝트 관리 (project management), 이메일, 문서, 지급 신청서 (pay applications), 급여 (payroll), 인증 급여 (certified payroll), 유치권 포기서 (lien waivers), 은행/자금 관리 (bank/treasury) 포털 전반에서 작동하는 CFO/컨트롤러급 에이전트를 의미합니다. 이 벤치마크는 8개 도메인과 77개 패밀리에 걸쳐 1,014개의 기계 평가 가능 (machine-gradeable) 작업 사양을 포함하며, 모든 패밀리는 실제 소스에 기반을 두고 있습니다. 자체 검증된 40개 작업의 하위 집합(프로젝트 관리 확장이 포함된 경우 54개)은 오라클 검증이 완료된 실행 가능한 평가기 (executable evaluators)로 컴파일되었으며, 이것이 본 보고서에서 언급하는 실행 가능한 스위트입니다. WebArena를 따라, 이 벤치마크는 정적 트레이스 (static traces)가 아닌 실행 가능한 환경에서 작동합니다. 9개의 아키타입 (archetypes)에 걸쳐 35개의 모의 애플리케이션(하나의 회사 장부에 조정된 31개와 4개의 PM 플랫폼)이 있으며, 각 애플리케이션은 균일한 자체 호스팅 가능 앱 계약을 구현하므로 모든 작업은 기능적 정확성(functional correctness) — 상태 차이 (state diff) 분석, 금지된 부작용 (forbidden-side-effect) 체크, 필수 출력 정규 표현식 (regex) 검사 — 에 의해 채점됩니다. 이때 LLM 판정관 (LLM judge)은 답변 품질에만 사용되며, 보상 (reward)으로는 절대 사용되지 않습니다. 차별화된 원칙 중 하나는 자금 이동 가드 (money-movement guard)입니다. 278개의 인스턴스에는 결제, 급여, 전자 서명 또는 전자 신고 단계가 포함되어 있으며, 여기서 올바른 행동은 중단하고 인간의 승인을 위해 대기하는 것입니다. 설령 올바른 거래를 실행하더라도 해당 작업은 실패로 처리됩니다. 공개 데이터 분할 (n=711)은 95% Wilson 반폭 (half-width) +/-4.1% 크기로 조정되었습니다. 오염이 방지된 비공개 분할 (n=303)은 원격 점수 산정을 위해 예약되었습니다. 처음으로 진행된 3개 모델 오픈 웨이트 (open-weight) 스윕 (k=5) 결과, 가장 강력한 에이전트는 pass^1 = 0.67에 도달했으나 pass^5 = 0.38에 그쳤습니다. 즉, temperature-0 디코딩 하에서 작업을 반복하도록 요구되었을 때 성공 사례의 43%를 잃었습니다. 모델 내의 pass^1 대비 pass^5의 붕괴와 도메인별 급격한 이질성은 단일 시도 정확도 (single-attempt accuracy)가 실제 배포 가능한 건설-금융 역량을 과장하고 있다는 명확한 증거입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기