본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 28. 13:31

벤치마크만으로는 부족하다: 프로덕션 시스템 내 에이전트 모델의 런타임 평가를 위한 RAMP

요약

기존의 정적 벤치마크가 가진 한계를 극복하기 위해, 실제 프로덕션 환경의 동적 복잡성을 반영하는 에이전트 평가 인프라 RAMP를 제안합니다. RAMP는 장기적인 소프트웨어 엔지니어링 워크플로우와 도구 상호작용을 평가하며, 모델의 실질적인 런타임 능력을 측정합니다.

핵심 포인트

  • 기존 벤치마크는 실제 프로덕션의 복잡성을 반영하지 못함
  • RAMP는 표준화된 오케스트레이션과 런타임 평가 아키텍처 제공
  • 실제 테스트 결과, 긴 워크플로우에서 모델 성능이 급격히 저하됨
  • 결과 품질과 프로세스 효율성을 동시에 평가하는 다차원 지표 도입

LLM 에이전트(LLM agents)는 코딩 보조 도구에서 자율적인 소프트웨어 엔지니어링 시스템으로 빠르게 진화하고 있습니다. 그러나 기존의 평가 방법론은 여전히 정적이고, 고립되어 있으며, 짧은 범위(short-horizon)의 벤치마크(benchmarks)에 주로 집중되어 있어 실제 프로덕션 워크플로우(production workflows)의 동적인 복잡성을 포착하지 못하고 있습니다. 그 결과, 벤치마크 성능은 긴 실행 체인(execution chains), 도구 상호작용(tool interactions), 의존성 관리(dependency management), 그리고 반복적인 피드백 루프(iterative feedback loops)를 포함하는 실제 런타임 환경(runtime environments)에서의 실질적인 능력을 제대로 반영하지 못할 수 있습니다.

이에 따라, 우리는 장기적 관점의 소프트웨어 엔지니어링 에이전트(software engineering agents)를 평가하기 위한 프로덕션 기반 인프라스트럭처(production-grounded infrastructure)인 RAMP를 제시합니다. YatCC 통합 플랫폼을 기반으로 구축된 RAMP는 표준화된 오케스트레이션(orchestration) 및 실행 인터페이스를 통해 통일된 런타임 평가 아키텍처(runtime assessment architecture)를 제공합니다. RAMP는 직렬 의존성(serial dependencies)과 복잡한 툴체인 상호작용(toolchain interactions)을 가진 현실적인 컴파일러 구축 워크로드(compiler-construction workloads)를 도입하며, 워크플로우의 부분적 실패 상황에서 실행 동작을 분석하기 위한 단계별 복구 메커니즘(staged recovery mechanism)을 함께 제공합니다. 또한, 이 프레임워크는 결과의 품질(outcome quality)과 프로세스 효율성(process efficiency)을 공동으로 평가하는 유틸리티 지향적 다차원 지표(utility-oriented multi-dimensional metrics)를 통합합니다.

우리는 15개의 주요 모델을 대상으로 런타임 평가를 수행하였으며, 기존의 고립된 벤치마크에서는 거의 드러나지 않았던 상당한 능력 저하를 관찰했습니다. 작업 완료율(Task completion rates)은 직렬 워크플로우(serial workflows)를 따라 점진적으로 붕괴되어, 초기 단계의 100%에서 마지막 단계에서는 단 20%로 떨어졌으며, 평가된 모델 중 전체 파이프라인(pipeline)을 성공적으로 완료한 모델은 단 하나도 없었습니다. 런타임 분석 결과, 체계적인 실패 전파(failure propagation)와 심각한 리소스 비효율성(resource inefficiencies)이 드러났으며, 유사한 모델들 사이에서도 계산 비용(computational costs)이 최대 3자릿수(three orders of magnitude)까지 차이가 났습니다. 이러한 발견은 RAMP가 에이전트 모델 평가를 지속적이고, 런타임 관찰이 가능하며, 프로덕션에 기반한 평가로 발전시킨다는 점을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0