CodeChat-Eval: 다회차 코드 개선 대화에서의 대규모 언어 모델 (LLMs) 평가
요약
다회차 코드 개선 대화 환경에서 LLM의 성능을 평가하기 위한 새로운 프레임워크인 CodeChat-Eval을 소개합니다. 기존 벤치마크가 놓치고 있는 기능적 정확성 유지 능력을 측정하며, 대화가 진행될수록 모델의 정확도가 유의미하게 하락함을 입증합니다.
핵심 포인트
- 다회차 코드 개선 대화 평가를 위한 CodeChat-Eval 프레임워크 제안
- 기존 벤치마크의 단회차 생성 중심 평가 한계 지적
- 대화가 반복될수록 모델의 기능적 정확성이 크게 감소함 확인
- 로직 수준의 개선 및 추가 변경 요청 시 정확도 저하가 두드러짐
대규모 언어 모델 (LLMs)은 코드를 생성하고 개선하기 위해 소프트웨어 공학 분야에서 점점 더 많이 사용되고 있습니다. 실제로 개발자들은 초기 코드 생성 요청 이후, 의도된 동작을 유지하면서 스타일을 개선하거나, 구현 구조를 재구성하거나, 실행 전략을 변경해 달라는 것과 같은 후속 개선 지침을 통해 대화를 이어가는 경우가 많습니다. 그러나 기존의 벤치마크 (benchmarks)들은 일반적으로 이러한 다회차 코드 개선 대화 (multi-turn code refinement dialogue) 설정을 생략하고 있으며, 따라서 LLMs가 기능적 정확성 (functional correctness), 즉 개선된 코드가 여전히 원래 작업에 대한 테스트 스위트 (test suite)를 통과하는지 여부를 평가할 수 없습니다. 이러한 한계를 해결하기 위해, 우리는 동적 지침 선택 알고리즘을 사용하여 다회차 코드 개선 대화로부터 평가 세션을 구축하는 평가 프레임워크인 CodeChat-Eval을 소개합니다. 오픈 웨이트 (open-weight) 및 독점적 (proprietary) LLMs에 대한 우리의 실증적 연구에 따르면, 다회차 개선 과정에서 기능적 정확성이 19.2% (GPT-5 Nano)에서 69.2% (Llama 3.1 8B)까지 통계적으로 유의미하게 감소하는 것이 관찰되었습니다. 가장 큰 정확성 저하는 로직 수준의 개선 (logic-level refinements) 및 추가적인 변경 요청 (additive change requests)과 관련이 있습니다. 이러한 결과는 LLMs가 다회차 코드 개선 대화 중에 기능적 정확성을 유지하는 데 어려움을 겪고 있음을 나타내며, 단일 회차 생성 (single-turn generation)을 넘어 기능을 보존하는 개선을 평가하는 벤치마크의 필요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기