SWE-Mutation: LLM은 소프트웨어 공학에서 신뢰할 수 있는 테스트 스위트를 생성할 수 있는가?

소프트웨어 공학 (Software Engineering) 능력을 평가하는 것은 현대 대규모 언어 모델 (LLMs)의 핵심 구성 요소가 되었습니다. 하지만 추가적인 확장을 가로막는 주요 병목 현상은 고품질 솔루션의 부족이 아니라, 고품질 테스트 스위트 (Test suites)의 부재에 있습니다. 테스트 스위트는 프로그램 수정 궤적 (Program repair trajectories)을 합성하는 것과 강화학습 (Reinforcement learning)에서 정밀한 피드백 신호를 제공하는 것 모두에 필수적입니다. 불행히도, 주석 달기 (Annotation)의 높은 비용과 어려움으로 인해 고품질 테스트 스위트를 확보하는 것은 오랫동안 어려웠으며, LLM에 의해 자동으로 생성된 테스트 스위트는 피상적이고 충분한 판별력 (Discriminative power)이 부족한 경향이 있습니다. 고품질 테스트 스위트를 구축하기 위한 첫 번째 단계로서, 우리는 LLM이 생성한 테스트 스위트를 평가하기 위한 벤치마크인 SWE-Mutation을 소개합니다. 이 벤치마크는 테스트 스위트를 "속이려고" 시도하며 검증을 통과하려는 체계적으로 변이된 (Mutated) 솔루션들을 도입함으로써 테스트 스위트의 특성을 규정합니다. 우리는 더 나아가 복잡한 변이체 (Mutants)를 자동으로 생성하기 위한 에이전트 기반의 언어 불가지론적 (Language-agnostic) 프레임워크를 제안합니다. 우리의 벤치마크는 800개의 원본 인스턴스에서 파생된 2,636개의 변이된 변형체로 구성되며, 9개의 프로그래밍 언어에 걸친 다국어 하위 집합을 포함합니다. 7개의 LLM을 대상으로 한 실험 결과, DeepSeek-V3.1조차 검증 (Verification)율 10.20%, 탐지 (Detection)율 36.15%만을 달성하여 현재 LLM의 불충분함을 드러냈습니다. 또한, 우리의 에이전트 기반 변이 전략은 현실성을 높여, 기존 방식과 비교했을 때 평균 탐지율을 71.04%에서 39.81%로 낮추었습니다. 이러한 결과는 신뢰할 수 있고 판별력 있는 테스트 스위트를 생성하는 데 있어 현재 LLM의 능력이 여전히 결여되어 있음을 보여줍니다.

Insights

SWE-Mutation: LLM은 소프트웨어 공학에서 신뢰할 수 있는 테스트 스위트를 생성할 수 있는가?

요약

핵심 포인트

댓글

NPU가 LLMs를 처리할 준비가 되었는가? 모바일 LLM 추론의 숨겨진 효율성 병목 현상 분석

WristMimic: 손목 가이드를 이용한 전신 휴머노이드 제어 및 조작

NEMESIS: 역변환 인지 SPICE 앵커링을 통한 NEtlist 기반 모델링 및 방정식 합성

ArtisanCAD: 전문가 지식 증류를 활용한 산업 수준 CAD 에이전트

NPU가 LLMs를 처리할 준비가 되었는가? 모바일 LLM 추론의 숨겨진 효율성 병목 현상 분석

WristMimic: 손목 가이드를 이용한 전신 휴머노이드 제어 및 조작

NEMESIS: 역변환 인지 SPICE 앵커링을 통한 NEtlist 기반 모델링 및 방정식 합성

ArtisanCAD: 전문가 지식 증류를 활용한 산업 수준 CAD 에이전트