SWE-InfraBench: 클라우드 인프라 코드에 대한 언어 모델 평가
요약
클라우드 인프라 코드(IaC)의 점진적 수정 능력을 평가하기 위한 새로운 벤치마크인 SWE-InfraBench를 소개합니다. AWS CDK와 같은 명령형 도구를 활용하여 실제 기업 환경의 코드 수정 과제를 LLM에 부여하고 그 성능을 측정합니다.
핵심 포인트
- 기존 생성 중심 벤치마크와 달리 점진적 코드 수정 능력 평가
- AWS CDK 기반의 실제 기업용 IaC 코드베이스 활용
- Sonnet 3.7(34%) 및 DeepSeek R1(24%) 등 최신 모델의 한계 노출
- 클라우드 리소스 의존성 및 구현 패턴에 대한 정교한 추론 요구
클라우드 컴퓨팅에서 코드형 인프라 (Infrastructure-as-Code, IaC)를 구축하는 것은 현대 소프트웨어 시스템의 신뢰성, 확장성 및 보안을 뒷받침하는 매우 중요한 작업입니다. 많은 전용 벤치마크를 통해 입증된 소프트웨어 공학 분야에서의 대규모 언어 모델 (Large Language Models, LLMs)의 놀라운 발전에도 불구하고, IaC 개발 능력은 여전히 충분히 탐구되지 않은 상태입니다. Terraform과 같은 선언적 패러다임에 주로 집중하고 처음부터 전체 코드베이스를 생성하는 기존의 IaC 벤치마크와 달리, 우리의 벤치마크는 AWS CDK와 같은 명령형 도구를 사용하는 기업 개발 환경에서 흔히 발생하는 점진적인 코드 수정 (incremental code edits)을 반영합니다. 우리는 AWS CDK 저장소에서 현실적인 코드 수정을 수행하도록 LLM에게 도전 과제를 부여하는, 수십 개의 실제 IaC 코드베이스에서 추출한 다양한 평가 데이터셋인 SWE-InfraBench를 제시합니다. 각 사례는 모델이 자연어 지침에 따라 기존 코드베이스에 변경 사항을 구현할 것을 요구하며, 성공 여부는 제공된 테스트 케이스를 통과하는지에 따라 결정됩니다. 이러한 작업은 기존의 코드 생성 과제를 넘어 클라우드 리소스 의존성 및 구현 패턴에 대한 정교한 추론을 요구합니다. 우리의 평가 결과는 현재 LLM의 상당한 한계를 드러내며, 최첨단 시스템조차 많은 작업에서 어려움을 겪고 있음을 보여줍니다. 가장 우수한 모델인 Sonnet 3.7은 단 34%의 사례에서만 성공했으며, DeepSeek R1과 같은 특화된 추론 모델은 단 24%의 성공률을 기록했습니다. SWE-InfraBench 데이터셋은 다음에서 확인할 수 있습니다: https://www.kaggle.com/datasets/64e59070fd51c0278560b01eb5dc4f3c447d5268cdabe5a350d2969e4413fea5
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기