재현 가능한 플래키 테스트(Flaky-Test) 실패 사례 데이터셋

플래키 테스트(Flaky tests)는 동일한 버전의 코드에서 실행될 때 비결정론적(non-deterministically)으로 통과하거나 실패합니다. 플래키 테스트를 탐지, 디버깅 및 수정하기 위한 많은 기술이 제안되었음에도 불구하고, 그 본질적인 비결정론성으로 인해 실패 사례를 재현하는 것은 여전히 주요한 과제로 남아 있습니다. 연구자들이 이를 연구할 수 있도록 돕는 많은 플래키 테스트 데이터셋이 존재하지만, 이러한 데이터셋들은 서로 분리된 플래키 테스트 세트로 구성되는 경우가 많습니다. 즉, 각 데이터셋은 서로 다른 카테고리의 플래키 테스트, 플래키 테스트의 실패 로그, 또는 개발자가 보고한 플래키 테스트 대 자동화 도구에 의해 발견된 플래키 테스트와 같이 고유한 정보만을 제공합니다. 본 연구에서는 개발자의 이슈 보고서와 대중적인 플래키 테스트 데이터셋 모두에서 선별하여, 재현 가능한 플래키 테스트 데이터셋을 구축하는 것을 목표로 합니다. 기존의 플래키 테스트 데이터셋과 비교하여, 우리의 데이터셋은 (1) 플래키 테스트를 컴파일하기 위한 재현 가능한 환경, (2) 실패를 재현하기 위한 스크립트, (3) 플래키 테스트 수정을 자동으로 적용하고 테스트가 더 이상 플래키하지 않음을 보장하는 스크립트, 그리고 (4) 플래키 테스트의 통과 및 실패 실행 로그를 최초로 제공합니다. 우리는 4가지 플래키 테스트 카테고리에 걸쳐 1,115개의 재현 가능한 플래키 테스트로 구성된 데이터셋인 ReproFlake를 제시합니다. 우리는 다른 사람들이 이 재현 가능한 데이터셋에 기여할 수 있도록 가이드라인을 제작하였으며, 우리의 데이터셋을 사용하여 플래키 테스트 실패 재현의 과제(예: 연구자들이 기존 플래키 테스트 데이터셋을 사용할 때 직면할 수 있는 과제), 특성(예: 수정 위치 및 플래키 테스트 카테고리와의 상관관계), 그리고 연구자들이 플래키 테스트에 대한 추가 정보(예: 코드 커버리지)를 수집하기 위해 우리 데이터셋을 사용할 때 직면할 수 있는 어려움을 이해하는 방법을 시연합니다. 우리의 연구 결과는 에러 정보가 플래키 테스트 카테고리를 식별하고 수정을 안내하는 데 도움이 된다는 것, 해결되지 않은 컴파일 실패가 레거시 프로젝트(legacy projects) 구축의 어려움을 강조한다는 것, 그리고 전형적인 수정 위치를 아는 것이 수정 노력을 우선순위화하는 데 도움이 될 수 있음을 보여줍니다.

Insights

재현 가능한 플래키 테스트(Flaky-Test) 실패 사례 데이터셋

요약

핵심 포인트

댓글

NPU가 LLMs를 처리할 준비가 되었는가? 모바일 LLM 추론의 숨겨진 효율성 병목 현상 분석

WristMimic: 손목 가이드를 이용한 전신 휴머노이드 제어 및 조작

NEMESIS: 역변환 인지 SPICE 앵커링을 통한 NEtlist 기반 모델링 및 방정식 합성

ArtisanCAD: 전문가 지식 증류를 활용한 산업 수준 CAD 에이전트

NPU가 LLMs를 처리할 준비가 되었는가? 모바일 LLM 추론의 숨겨진 효율성 병목 현상 분석

WristMimic: 손목 가이드를 이용한 전신 휴머노이드 제어 및 조작

NEMESIS: 역변환 인지 SPICE 앵커링을 통한 NEtlist 기반 모델링 및 방정식 합성

ArtisanCAD: 전문가 지식 증류를 활용한 산업 수준 CAD 에이전트