arXiv논문2026. 06. 29. 11:04

LLM 기반 리팩토링을 통한 자동 생성 단위 테스트 스위트의 인간화

요약

SBST 도구의 낮은 가독성을 해결하기 위해 LLM을 리팩토링 레이어로 활용하는 TestHumanizer 기법을 제안합니다. 이 하이브리드 방식은 컴파일 성공률을 88-98%까지 높이면서도 테스트 코드의 가독성과 유지보수성을 크게 향상시킵니다.

핵심 포인트

SBST와 LLM을 결합한 하이브리드 TestHumanizer 접근법 제안
컴파일 성공률을 기존 LLM 직접 생성 방식보다 대폭 개선
테스트 코드의 인지 복잡도 감소 및 가독성 유의미한 향상
LLM을 독립적 생성기보다 검증 및 정제 레이어로 활용할 때 효과적

EvoSuite와 같은 검색 기반 테스트 생성 (Search-based test generation) 도구들은 대규모로 컴파일 가능하며 높은 커버리지를 가진 단위 테스트 (unit tests)를 생성하지만, 생성된 스위트들은 읽기 어렵고 유지보수하기 힘든 경우가 많습니다. LLM (Large Language Models)은 더 자연스러운 테스트를 생성할 수 있지만, 직접적인 생성 방식은 여전히 취약하며 본 연구에서는 컴파일 성공률이 51-78%에 불과했습니다. 우리는 컴파일 가능한 SBST (Search-Based Software Testing) 스위트 위에 LLM을 제어된 리팩토링 레이어로 사용하는 하이브리드 SBST+LLM 접근 방식인 TestHumanizer를 소개합니다. 이는 동작과 컴파일 유효성을 보존하면서 명명 (naming), 구조, 그리고 개발자 지향적인 명확성을 개선합니다. 우리는 Defects4J 및 SF110에서 추출한 350개 클래스를 대상으로 TestHumanizer를 평가했습니다. EvoSuite는 클래스당 15개의 스위트를 생성하며, 각 스위트는 gpt-4o 및 mistral-large-2407을 사용하여 세 가지 컨텍스트 설정 하에 리팩토링되어 총 31,500건의 리팩토링을 수행했습니다. TestHumanizer는 88-98%의 컴파일 성공률을 달성하였는데, 이는 EvoSuite의 100% 기준점(baseline)에 근접하며 직접적인 LLM 생성 방식보다는 확실히 높습니다. 구조적 커버리지 (Structural coverage)는 일반적으로 1-2% 포인트 이내로 대부분 보존되었으며, 리팩토링의 86-95%가 복합적인 충실한 리팩토링 (faithful-refactoring) 임계값을 충족했습니다. 리팩토링된 스위트는 또한 예측된 가독성을 향상시키고, 제어 흐름 (control-flow) 및 인지 복잡도 (cognitive complexity)를 줄이며, 구조적 스멜 (structural smells)을 완화합니다. 요약 기반 (summary-based) 설정이 가장 견고한 트레이드오프 (trade-off)를 제공하는 반면, 긴 코드 중심의 프롬프트는 환각 (hallucination)으로 인한 실패에 더 취약합니다. 30개 클래스와 444개 테스트 메서드를 대상으로 한 개발자 연구 결과, 인지된 가독성과 채택 의지가 유의미하게 향상되었음을 확인하였으며 (Wilcoxon p < 0.01), 상당한 평가자 간 일치도 (inter-rater agreement)를 보였습니다. 종합적으로, LLM은 독립적인 생성기로서보다는 견고한 SBST 출력물 위에 검증 게이트 역할을 하는 정제 레이어 (refinement layers)로서 가장 효과적입니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 기반 리팩토링을 통한 자동 생성 단위 테스트 스위트의 인간화

요약

핵심 포인트

댓글