점진적, 적응적 및 상호작용적 피드백을 통한 코드 개선 벤치마킹
요약
LLM의 코드 생성 및 수정 능력을 정밀하게 평가하기 위한 새로운 벤치마크인 PAIR-Bench를 소개합니다. 기존의 이진 통과 여부 평가 방식에서 벗어나, 피드백을 통한 점진적이고 적응적인 코드 개선 과정을 측정합니다.
핵심 포인트
- 기존의 단순 통과/실패 평가 방식의 한계 극복
- 점진적 힌팅을 통한 피드백 가이드 정제 과정 평가
- 실패 영역 및 힌트 깊이 제어를 통한 정밀한 측정
- 모델의 코드 수정 궤적과 일반화 능력 분석 가능
대규모 언어 모델 (LLMs)은 일반적으로 이진 기능적 정확성(binary functional correctness), 즉 생성된 프로그램이나 패치가 테스트 스위트를 통과하거나 실패하는지를 사용하여 코드 생성 및 프로그램 수정(program repair) 능력을 평가합니다. 이 프로토콜은 단순하지만, 부분적인 진행 상황, 피드백 활용, 회귀(regressions), 그리고 모델이 코드를 개선해 나가는 과정인 정제 궤적(refinement trajectory)을 무시하기 때문에 정밀도가 떨어집니다. 우리는 코드 개선을 평가하기 위한 점진적이고 적응적인 벤치마크인 PAIR-Bench를 소개합니다. 이는 피드백 가이드 정제(feedback-guided refinement)를 통해 부정확하거나 불완전한 프로그램을 더 정확한 프로그램으로 변환하는 과정을 다룹니다. PAIR-Bench는 두 가지 제어 장치를 가진 구조화된 피드백 프로토콜인 점진적 힌팅(progressive hinting)을 사용합니다. 실패 영역 제어(Failure-region control)는 숨겨진 실패 테스트들을 실패 시나리오로 그룹화하여 피드백이 무엇을 대상으로 할지 결정하며, 힌트 깊이 제어(hint-depth control)는 거친 증상부터 구현 수준의 가이드에 이르기까지 수정과 관련된 정보를 얼마나 공개할지를 결정합니다. 이러한 설계를 통해 PAIR-Bench는 모델이 목표로 하는 실패를 수정하는지, 힌트를 넘어 일반화할 수 있는지, 이미 올바른 동작을 유지하는지, 그리고 어느 정도의 도움이 필요한지를 측정할 수 있습니다. 최종적인 통과/실패 결과뿐만 아니라 점진적인 지표를 통해 수정 궤적을 평가함으로써, PAIR-Bench는 LLM의 코드 개선 능력에 대한 더 세밀한 평가를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기