arXiv논문2026. 06. 05. 15:45

DeployBench: 연구 산출물 배포를 위한 LLM 에이전트 벤치마킹

요약

연구 산출물 배포를 위한 멀티 도메인 벤치마크인 DeployBench를 소개합니다. AI/ML 및 시스템 수준의 의존성을 포함한 51개 작업을 통해 LLM 에이전트의 실제 배포 능력을 평가합니다.

핵심 포인트

연구 산출물 배포를 위한 새로운 벤치마크 DeployBench 제안
GPU/CUDA 등 시스템 수준의 의존성 해결 능력 평가
최첨단 LLM 에이전트의 통과율이 7.8%~51.0%로 낮게 나타남
에이전트의 작업 완료 판단(completion-judgment) 문제가 주요 실패 원인

LLM 에이전트(LLM agents)는 소프트웨어 엔지니어링 및 머신러닝 (ML) 연구 작업에서 급격한 발전을 이루었으나, 이러한 발전은 종종 실행 가능한 작동 환경에 접근할 수 있다는 것을 전제로 합니다. 출판된 논문과 함께 공개되는 연구 산출물(research artifacts)의 경우, 새로운 머신에서 이러한 환경을 설정하는 것은 여전히 주요한 병목 현상으로 남아 있습니다. 기존의 환경 설정 벤치마크는 다국어 툴체인(toolchains), 컨테이너를 넘어선 시스템 수준의 의존성(예: GPU/CUDA 및 커널 설정), 그리고 레거시 산출물 호환성을 포함하는 연구 산출물 배포의 전체 범위를 다루지 못합니다. 우리는 AI/ML, 컴퓨터 시스템, 과학 계산을 아우르며 이러한 모든 차원을 포괄하는 51개의 연구 산출물 배포 작업으로 구성된 멀티 도메인 벤치마크인 DeployBench를 소개합니다. 각 작업은 논문에 지정된 실험을 실행하고 그 출력을 확인하는 숨겨진 파이프라인에 의해 검증됩니다. OpenHands를 사용하여 4개의 최첨단 LLM을 평가한 결과, 통과율은 7.8%에서 51.0% 사이로 나타났습니다. 실패의 주된 원인은 완료 판단(completion-judgment) 문제였습니다. 154개 중 97개가 에이전트가 스스로 종료하는 self-stops 사례였으며, 이는 에이전트의 종료 전 확인 절차가 논문별 특정 작업이 요구하는 것보다 다르거나 더 약한 목표를 검증했기 때문입니다. DeployBench는 현재의 에이전트와 자율 배포 사이의 간극을 강조하며, 과학 연구 에이전트를 위한 현실적인 테스트베드를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DeployBench: 연구 산출물 배포를 위한 LLM 에이전트 벤치마킹

요약

핵심 포인트

댓글