AxDafny: Dafny에서의 에이전트 기반 검증 코드 생성
요약
Dafny 언어를 위한 에이전트 기반 코드 및 검증 증명 생성 프레임워크인 AxDafny를 제안합니다. 검증기 가이드 기반의 반복적 수정 과정을 통해 구현과 불변량 등을 생성하며, 새로운 벤치마크인 LCB-Pro-Dafny를 함께 소개합니다.
핵심 포인트
- AxDafny는 검증기 피드백을 활용해 코드와 증명을 반복 수정함
- 새로운 벤치마크 LCB-Pro-Dafny를 통해 성능 평가 수행
- DafnyBench에서 92.7%의 높은 검증 성공률 달성
- 기존 베이스라인 대비 실질적인 검증 성공률 향상 입증
우리는 모델이 실행 가능한 코드와 검증을 위한 증명 아티팩트(proof artifacts)를 모두 생성해야 하는 Dafny에서의 에이전트 기반 코드 생성(agentic code generation)을 연구합니다. 우리는 구현(implementations), 불변량(invariants), 어설션(assertions), 그리고 종료 논거(termination arguments)를 반복적으로 생성하는 검증기 가이드 기반 수정 프레임워크인 AxDafny를 제시합니다. 또한, 우리는 공식 명세(formal specifications)와 검증기 기반 평가 하네스(verifier-based evaluation harness)를 갖추고 Dafny로 번역된 250개의 대회 스타일 프로그래밍 문제로 구성된 벤치마크인 LiveCodeBench-Pro-Dafny (LCB-Pro-Dafny)를 소개합니다. LCB-Pro-Dafny에서 AxDafny는 베이스라인인 GPT-5.5의 성능에 비해 검증 성공률을 실질적으로 향상시킵니다. DafnyBench에서 AxDafny는 92.7%의 검증 성공률을 달성하며, 이전에 보고된 가장 강력한 증명 힌트(proof-hint) 베이스라인보다 6.5%포인트 높은 성능을 기록했습니다. 마지막으로, 우리는 검증 성공률과 런타임 테스트 성능이 생성된 코드의 서로 다른 측면을 측정한다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기