버그 분류를 위한 멀티태스크 LLM: 보조 디코딩 헤드(Auxiliary Decoding Heads)를 활용한 효율적인 추론
요약
본 연구는 기존 에이전트 기반 버그 위치 식별 방식의 높은 비용과 낮은 정밀도 문제를 해결하기 위해 경량 멀티태스크 LLM(MLC)을 제안합니다. 토큰 정렬 알고리즘과 최적화된 학습 레시피를 통해 라인 수준의 정밀한 버그 분류를 달성하며, 추론 지연 시간을 획기적으로 단축했습니다.
핵심 포인트
- 토큰 정렬 알고리즘을 통한 토큰화 문제 해결
- 경량 멀티태스크 LLM(MLC) 기반의 라인 수준 버그 분류
- 에이전트 방식 대비 추론 지연 시간 수십 배 단축
- Defects4J 및 PypiBugs 벤치마크에서 SOTA 성능 달성
- 높은 일반화 성능 및 오픈 소스 공개 예정
LLM(Large Language Model) 기반 코드 생성의 급격한 도입은 소프트웨어 개발을 획기적으로 가속화했지만, 효과적인 검증 방법은 여전히 매우 미비한 상태입니다. 기존의 버그 위치 식별(Bug localization) 기술은 에이전트 기반 추론(Agentic reasoning)에 수 분이 소요되고 파일당 수천 개의 생성 토큰(Token)을 필요로 하여 비용이 지나치게 높거나, 정밀한 디버깅에 부적합한 거친 함수 수준(Function-level)의 입도(Granularity)로 작동합니다. 반면, 라인 수준(Line-level)의 입도를 다루며 더 가벼운 연구들은 성능이나 컨텍스트 크기(Context size) 측면에서 제한적인 경우가 많습니다. 본 연구에서는 세 가지 핵심 기여를 통해 이러한 한계를 해결하는 새로운 라인 수준 버그 위치 식별 접근 방식을 소개합니다: (1) 이전 연구의 근본적인 토큰화(Tokenization) 문제를 극복하는 토큰 정렬(Token alignment) 알고리즘, (2) 효율적인 라인 수준 버그 분류를 가능하게 하는 버그 위치 식별을 위한 경량 멀티태스크 LLM (MLC), (3) 다중 라인 예측을 위한 최적화된 학습 레시피(Training recipe). 우리의 방법은 전체 파일 컨텍스트(Full-file context)를 사용하는 라인 수준 버그 위치 식별에서 유사한 설정들 중 최첨단(State-of-the-art) 성능을 달성합니다. 동시에 Defects4J 및 PypiBugs 벤치마크에서 에이전트 기반 접근 방식과 대등한 성능을 기록하면서도, 파일당 단 하나의 생성 토큰만을 필요로 하여 추론 지연 시간(Inference latency)을 수십 배(Orders of magnitudes) 줄였습니다. 나아가 Python 기반의 작은 도메인 외(Out-of-domain) 평가 데이터셋을 도입하고 평가함으로써 강력한 일반화 성능을 입증합니다. 논문 채택 시 코드, 모델 및 데이터셋을 오픈 소스로 공개할 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기