무효한 버그 리포트에 대한 자동 근본 원인 하위 분류 및 노코드(No-Code) 수정안 생성

소프트웨어를 사용할 때 발생하는 문제들은 버그 리포트(bug reports)의 형태로 보고됩니다. 그러나 많은 버그 리포트가 무효(invalid)하며, 이는 코드 변경이 필요하지 않음을 의미하고 노코드(no-code) 수정으로 해결될 수 있음을 뜻합니다. 고객 지원 팀이 무효한 버그 리포트의 근본 원인(root cause)을 수동으로 결정하고 실행 가능한 해결책을 제공하는 것은 심각한 자원 낭비를 초래합니다. 우리의 목표는 근본 원인 중심의 무효 버그 리포트 하위 분류를 위한 표준화된 분류 체계(taxonomy)를 도입하고, 무효 하위 분류 및 노코드 수정 생성에 대한 다양한 접근 방식의 정확도를 테스트하기 위해 실험을 수행하는 것입니다. 우리는 우리가 직접 만든 골드 스탠다드(gold-standard) 벤치마크에서 서로 다른 설정들이 어떻게 작동하는지 연구합니다. 더 높은 품질의 분석을 위해 수동으로 큐레이션된 벤치마크를 사용하여, 무효 하위 클래스를 식별하고 노코드 수정을 생성하기 위해 일반 LLM(vanilla LLMs), 검색 증강 생성(Retrieval Augmented Generation, RAG), 그리고 에이전트 기반 웹 검색(agentic web search)을 실험했습니다. 우리는 원래의 버그 리포트에서 추출한 무효 하위 클래스와 노코드 수정이 포함된 수동 라벨링 정답 데이터(ground truth data)를 기준으로 결과를 평가했습니다. 하위 클래스 탐지 성능은 가중 F1-Score(weighted F1-Score)로 측정하였고, 노코드 수정 제안은 BERTScore와 Judge LLM 성공률을 사용하여 평가했습니다. 하위 분류의 경우, 검색 증강 생성(RAG)이 0.66의 가중 F1을 기록하며 가장 높은 전반적인 성능을 달성하였으며, 이는 일반 LLM의 0.65와 에이전트 기반 웹 검색의 0.64를 약간 상회하는 수치입니다. 하위 클래스 수준에서 성능은 재현 불가능(Non-reproducibility)의 경우 0.85 F1, 기능 요청(Feature Request) 및 질문(Question)의 경우 0.79에서 정점을 찍었으며, 잘못된 버전(Wrong Version)은 0.00에서 0.29 사이의 점수를 기록하며 가장 어려운 과제로 남았습니다. 노코드 수정 생성의 경우, 에이전트 기반 웹 검색이 68.9%로 가장 높은 전반적인 Judge LLM 성공률을 달성하였으며, 이는 RAG 애플리케이션의 64.4% 및 일반 LLM의 64.9%와 비교됩니다. 하위 클래스별 정점은 설계대로 작동함(Working as Designed)의 경우 87.4%, 질문(Question)의 경우 72.2%를 기록했습니다.

Insights

무효한 버그 리포트에 대한 자동 근본 원인 하위 분류 및 노코드(No-Code) 수정안 생성

요약

핵심 포인트

댓글

음악을 분석하고 0점에서 100점까지 점수를 매기는 무료 AI 믹스 분석기 제작

과장된 기대 너머: AI 제품 개발의 현실 점검

$TAC 토큰 91% 폭락은 전형적인 Alpha 프로젝트의 청산 신호입니다.

AI 시네마틱 콘텐츠 제작의 어려움과 해결책

음악을 분석하고 0점에서 100점까지 점수를 매기는 무료 AI 믹스 분석기 제작

과장된 기대 너머: AI 제품 개발의 현실 점검

$TAC 토큰 91% 폭락은 전형적인 Alpha 프로젝트의 청산 신호입니다.

AI 시네마틱 콘텐츠 제작의 어려움과 해결책