본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 01:19

A-ProS: 멀티 모델 피드백을 통한 신뢰할 수 있는 자율 프로그래밍을 향하여

요약

A-ProS는 솔루션 생성과 디버깅을 분리하여 알고리즘 문제를 해결하는 하이브리드 멀티 모델 피드백 프레임워크입니다. GPT-4/GPT-5 생성기와 Codestral, Llama-3.3, DeepSeek-R1 비평가를 결합하여 실행 피드백을 통해 코드를 반복적으로 개선합니다. 실험 결과, 상태 유지(stateful) 방식과 멀티 모델 피드백을 통해 기존 베이스라인 대비 2배 이상의 성능 향상을 달성했습니다.

핵심 포인트

  • 솔루션 생성과 전문적인 디버깅을 분리하는 하이브리드 멀티 모델 피드백 구조 제안
  • 상태 유지(stateful) 개선 방식이 상태 비유지 방식보다 성능 면에서 8.5-10.6%p 우세
  • GPT-5와 다양한 디버깅 비평가 조합을 통해 초기 정답 수를 대폭 향상
  • 지속적인 컨텍스트(persistent context)와 멀티 모델 피드백이 자율 프로그래밍의 핵심 요소임을 입증

대규모 언어 모델 (LLMs)은 자동화된 코드 생성 분야에서 강력한 잠재력을 보여주고 있지만, 실행 피드백 (execution feedback)을 사용하여 솔루션을 반복적으로 개선하는 능력은 아직 충분히 탐구되지 않았습니다. 알고리즘적 추론 (algorithmic reasoning), 엄격한 계산 제약 조건 하에서의 정밀한 구현, 그리고 엄격한 평가를 통한 완전한 기능적 정확성을 요구하는 알고리즘 문제 해결 (competitive programming)은 이러한 연구를 위한 이상적인 테스트베드를 제공합니다. 본 논문에서는 솔루션 생성과 전문적인 디버깅 (debugging)을 분리하는 하이브리드 멀티 모델 피드백 프레임워크를 통해 알고리즘 문제를 해결하는 자율 AI 에이전트인 A-ProS를 제안합니다. A-ProS는 2 x 3 요인 설계 (factorial design) 하에서 ChatGPT 기반 생성기 (GPT-4 및 GPT-5)를 세 가지 디버깅 비평가 (debugging critics)인 Codestral-2508, Llama-3.3-70B, DeepSeek-R1과 결합합니다. 우리는 ICPC World Finals (2011-2024) 및 Codeforces (레이팅 1200-1800)의 367개 문제를 대상으로 6가지 워크플로우를 평가했습니다. 결과에 따르면 GPT-5 워크플로우는 초기 정답 수 39개에서 3회의 개선 라운드 후 85-90개로 향상되었으며, GPT-4는 15개에서 31-38개로 향상되었습니다. 47개 문제를 대상으로 한 통제된 절제 연구 (ablation study) 결과, 상태 유지 개선 (stateful refinement) 방식이 상태 비유지 (stateless) 방식보다 8.5-10.6 퍼센트 포인트 더 높은 성능을 보였으며, 반복적인 실패를 최대 3.5배까지 줄였습니다. 베이스라인 에이전트 루프 (baseline agent loops)와 비교했을 때, A-ProS는 2배 이상의 더 큰 이득을 달성하였으며, 이는 신뢰할 수 있는 자율 프로그램 합성 (autonomous program synthesis)을 위해 지속적인 컨텍스트 (persistent context)와 멀티 모델 피드백이 중요하다는 점을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0