무효한 버그 리포트에 대한 자동 근본 원인 하위 분류 및 노코드(No-Code) 수정안 생성
요약
무효한 버그 리포트의 근본 원인을 자동으로 분류하고 노코드(No-Code) 수정안을 생성하는 연구를 다룹니다. Vanilla LLM, RAG, 에이전트 기반 웹 검색을 비교 실험한 결과, 하위 분류에는 RAG가, 노코드 수정안 생성에는 에이전트 기반 웹 검색이 가장 우수한 성능을 보였습니다.
핵심 포인트
- 무효 버그 리포트의 근본 원인 분류에는 RAG 방식이 가장 높은 가중 F1-Score(0.66)를 기록함
- 노코드 수정안 생성 측면에서는 에이전트 기반 웹 검색이 가장 높은 Judge LLM 성공률(68.9%)을 달성함
- 재현 불가능(Non-reproducibility) 및 설계대로 작동함(Working as Designed) 분류에서 높은 성능을 보임
- 잘못된 버전(Wrong Version) 분류는 모든 모델에서 가장 낮은 성능을 보인 어려운 과제로 나타남
소프트웨어를 사용할 때 발생하는 문제들은 버그 리포트(bug reports)의 형태로 보고됩니다. 그러나 많은 버그 리포트가 무효(invalid)하며, 이는 코드 변경이 필요하지 않음을 의미하고 노코드(no-code) 수정으로 해결될 수 있음을 뜻합니다. 고객 지원 팀이 무효한 버그 리포트의 근본 원인(root cause)을 수동으로 결정하고 실행 가능한 해결책을 제공하는 것은 심각한 자원 낭비를 초래합니다. 우리의 목표는 근본 원인 중심의 무효 버그 리포트 하위 분류를 위한 표준화된 분류 체계(taxonomy)를 도입하고, 무효 하위 분류 및 노코드 수정 생성에 대한 다양한 접근 방식의 정확도를 테스트하기 위해 실험을 수행하는 것입니다. 우리는 우리가 직접 만든 골드 스탠다드(gold-standard) 벤치마크에서 서로 다른 설정들이 어떻게 작동하는지 연구합니다. 더 높은 품질의 분석을 위해 수동으로 큐레이션된 벤치마크를 사용하여, 무효 하위 클래스를 식별하고 노코드 수정을 생성하기 위해 일반 LLM(vanilla LLMs), 검색 증강 생성(Retrieval Augmented Generation, RAG), 그리고 에이전트 기반 웹 검색(agentic web search)을 실험했습니다. 우리는 원래의 버그 리포트에서 추출한 무효 하위 클래스와 노코드 수정이 포함된 수동 라벨링 정답 데이터(ground truth data)를 기준으로 결과를 평가했습니다. 하위 클래스 탐지 성능은 가중 F1-Score(weighted F1-Score)로 측정하였고, 노코드 수정 제안은 BERTScore와 Judge LLM 성공률을 사용하여 평가했습니다. 하위 분류의 경우, 검색 증강 생성(RAG)이 0.66의 가중 F1을 기록하며 가장 높은 전반적인 성능을 달성하였으며, 이는 일반 LLM의 0.65와 에이전트 기반 웹 검색의 0.64를 약간 상회하는 수치입니다. 하위 클래스 수준에서 성능은 재현 불가능(Non-reproducibility)의 경우 0.85 F1, 기능 요청(Feature Request) 및 질문(Question)의 경우 0.79에서 정점을 찍었으며, 잘못된 버전(Wrong Version)은 0.00에서 0.29 사이의 점수를 기록하며 가장 어려운 과제로 남았습니다. 노코드 수정 생성의 경우, 에이전트 기반 웹 검색이 68.9%로 가장 높은 전반적인 Judge LLM 성공률을 달성하였으며, 이는 RAG 애플리케이션의 64.4% 및 일반 LLM의 64.9%와 비교됩니다. 하위 클래스별 정점은 설계대로 작동함(Working as Designed)의 경우 87.4%, 질문(Question)의 경우 72.2%를 기록했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기