FLARE: LLM 코드 개선을 위한 세밀한 진단 피드백
요약
LLM이 생성한 코드의 버그를 수정하기 위해 라인 단위의 세밀한 진단 피드백을 제공하는 FLARE 프레임워크를 제안합니다. 기존의 거친 피드백 대신 경량 진단 모델을 통해 버그 위치를 정확히 파악하여 코드 개선 성능을 크게 향상시켰습니다.
핵심 포인트
- 라인 단위의 의심 신호를 예측하는 경량 진단 모델 도입
- 불확실성을 고려하여 상위 k개의 의심 영역을 탐색하는 프레임워크
- LiveCodeBench 및 BigCodeBench에서 기존 베이스라인 대비 성능 향상 입증
- 결함 위치 파악(fault localization) 분야에서 최고 성능 달성
대규모 언어 모델(Large language models, LLM)은 종종 버그가 포함된 코드를 생성합니다. 기존 방식들은 테스트 실패나 자기 비판(self-critiques)과 같은 피드백 신호에 의존하여 생성된 코드를 반복적으로 개선합니다. 이러한 신호들은 너무 거칠거나(coarse-grained) 너무 높은 수준(high-level)이어서, 모델에게 버그를 어디서 수정해야 하는지 알려주기에는 불충분합니다. 본 연구에서는 버그 위치 파악(bug localization) 및 코드 개선을 위해 라인 단위의 의심 신호(line-level suspiciousness signals)를 예측하는 경량 진단 모델(lightweight diagnostic model)을 포함한 반복 프레임워크인 Flare를 제시합니다. 진단 예측의 내재적인 불확실성을 고려하여, Flare는 상위 k개의 의심 영역(top-k suspicious regions)을 탐색하고 실행 결과에 따라 최적의 후보를 선택합니다. 다섯 가지 기본 LLM을 사용하여 LiveCodeBench 및 BigCodeBench에서 수행한 실험 결과, 후보 탐색을 하지 않더라도(k=1), Flare는 가장 강력한 베이스라인(baseline)보다 1.72%에서 7.42%까지 절대적인 성능 향상을 보였습니다. 나아가, 10개의 후보를 탐색할 경우 후보 탐색을 하지 않았을 때와 비교하여 평균 8.50%의 향상을 달성했습니다. 단독으로 평가했을 때, 우리의 경량 진단 모델은 최근의 결함 위치 파악(fault localization) 방법들과 비교하여 최고의 성능을 달성하였으며, 이는 모델이 코드 개선을 위해 신뢰할 수 있는 세밀한 가이드를 제공할 수 있음을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기