arXiv논문2026. 06. 17. 10:48

반복적인 피드백 루프를 통한 LLM 코드 수정 능력의 해제

요약

본 연구는 LLM이 실행 피드백을 통해 코드를 반복적으로 수정하는 능력을 체계적으로 조사합니다. 컴파일러 에러와 테스트 케이스 피드백을 활용한 프레임워크를 통해 추론 모델과 비추론 모델의 성능 차이를 분석합니다.

핵심 포인트

실행 피드백을 통한 반복적 개선 프레임워크 제안
추론 모델이 비추론 모델보다 피드백 활용 능력이 뛰어남
구문 및 런타임 에러는 논리적 오류보다 수정이 용이함
반복적인 피드백 루프가 LLM의 코드 생성 성능을 향상시킴

대규모 언어 모델 (Large Language Models, LLMs)은 코드 생성 분야에서 놀라운 능력을 보여주었습니다. 그러나 기존의 대부분의 평가는 단일 시도 정확도에만 집중하며, 실제 프로그래밍의 핵심인 반복적인 개선 (iterative refinement) 과정을 간과하고 있습니다. 본 연구는 실행 피드백 (execution feedback)을 통해 자신의 코드를 수정하는 LLM의 능력을 체계적으로 조사합니다. 4개의 모델과 2개의 주요 프로그래밍 언어를 사용하여 실제 프로그래밍 문제를 활용함으로써, 본 연구는 LLM이 매 시도 후 컴파일러 에러 메시지 (compiler error messages)와 테스트 케이스 피드백 (testcase feedback)을 받는 반복적 개선 프레임워크 (iterative refinement framework)를 사용하여 성능을 평가합니다. 본 연구는 코드 실패를 평가하고, 수정 패턴을 분석하며, 추론 모델 (reasoning models)과 비추론 모델 (non-reasoning models)의 효과를 비교하기 위한 지표를 도입하여, LLM 기반 코드 생성 시스템에서 피드백 루프 (feedback loops)의 이해와 실제 적용에 대한 실행 가능한 통찰력을 제공합니다. 결과에 따르면, 추론 모델은 반복을 거듭할수록 지속적으로 개선되며, 피드백을 활용하는 데 있어 비추론 모델을 실질적으로 능가하는 반면, 구문 에러 (syntactic errors) 및 런타임 에러 (runtime errors)는 논리적 또는 알고리즘적 실패보다 훨씬 더 다루기 쉬운 것으로 나타났습니다.

AI 자동 생성 콘텐츠

원문 바로가기

반복적인 피드백 루프를 통한 LLM 코드 수정 능력의 해제

요약

핵심 포인트

댓글