본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 18:15

SWE-Mutation: LLM은 소프트웨어 공학에서 신뢰할 수 있는 테스트 스위트를 생성할 수 있는가?

요약

LLM이 생성한 테스트 스위트의 품질을 평가하기 위한 새로운 벤치마크인 SWE-Mutation을 소개합니다. 에이전트 기반 프레임워크를 통해 변이된 솔루션을 생성하여 테스트 스위트의 판별력을 측정하며, 현재 LLM의 성능이 신뢰할 수 있는 테스트 생성에 미치지 못함을 입증합니다.

핵심 포인트

  • LLM의 소프트웨어 공학 능력 평가를 위한 SWE-Mutation 벤치마크 제안
  • 에이전트 기반의 언어 불가지론적 변이 생성 프레임워크 도입
  • 9개 프로그래밍 언어를 포함한 2,636개의 변이체 데이터셋 구축
  • DeepSeek-V3 등 주요 LLM의 낮은 테스트 검증 및 탐지율 확인

소프트웨어 공학 (Software Engineering) 능력을 평가하는 것은 현대 대규모 언어 모델 (LLMs)의 핵심 구성 요소가 되었습니다. 하지만 추가적인 확장을 가로막는 주요 병목 현상은 고품질 솔루션의 부족이 아니라, 고품질 테스트 스위트 (Test suites)의 부재에 있습니다. 테스트 스위트는 프로그램 수정 궤적 (Program repair trajectories)을 합성하는 것과 강화학습 (Reinforcement learning)에서 정밀한 피드백 신호를 제공하는 것 모두에 필수적입니다. 불행히도, 주석 달기 (Annotation)의 높은 비용과 어려움으로 인해 고품질 테스트 스위트를 확보하는 것은 오랫동안 어려웠으며, LLM에 의해 자동으로 생성된 테스트 스위트는 피상적이고 충분한 판별력 (Discriminative power)이 부족한 경향이 있습니다. 고품질 테스트 스위트를 구축하기 위한 첫 번째 단계로서, 우리는 LLM이 생성한 테스트 스위트를 평가하기 위한 벤치마크인 SWE-Mutation을 소개합니다. 이 벤치마크는 테스트 스위트를 "속이려고" 시도하며 검증을 통과하려는 체계적으로 변이된 (Mutated) 솔루션들을 도입함으로써 테스트 스위트의 특성을 규정합니다. 우리는 더 나아가 복잡한 변이체 (Mutants)를 자동으로 생성하기 위한 에이전트 기반의 언어 불가지론적 (Language-agnostic) 프레임워크를 제안합니다. 우리의 벤치마크는 800개의 원본 인스턴스에서 파생된 2,636개의 변이된 변형체로 구성되며, 9개의 프로그래밍 언어에 걸친 다국어 하위 집합을 포함합니다. 7개의 LLM을 대상으로 한 실험 결과, DeepSeek-V3.1조차 검증 (Verification)율 10.20%, 탐지 (Detection)율 36.15%만을 달성하여 현재 LLM의 불충분함을 드러냈습니다. 또한, 우리의 에이전트 기반 변이 전략은 현실성을 높여, 기존 방식과 비교했을 때 평균 탐지율을 71.04%에서 39.81%로 낮추었습니다. 이러한 결과는 신뢰할 수 있고 판별력 있는 테스트 스위트를 생성하는 데 있어 현재 LLM의 능력이 여전히 결여되어 있음을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0