AxDafny: Dafny에서의 에이전트 기반 검증 코드 생성

우리는 모델이 실행 가능한 코드와 검증을 위한 증명 아티팩트(proof artifacts)를 모두 생성해야 하는 Dafny에서의 에이전트 기반 코드 생성(agentic code generation)을 연구합니다. 우리는 구현(implementations), 불변량(invariants), 어설션(assertions), 그리고 종료 논거(termination arguments)를 반복적으로 생성하는 검증기 가이드 기반 수정 프레임워크인 AxDafny를 제시합니다. 또한, 우리는 공식 명세(formal specifications)와 검증기 기반 평가 하네스(verifier-based evaluation harness)를 갖추고 Dafny로 번역된 250개의 대회 스타일 프로그래밍 문제로 구성된 벤치마크인 LiveCodeBench-Pro-Dafny (LCB-Pro-Dafny)를 소개합니다. LCB-Pro-Dafny에서 AxDafny는 베이스라인인 GPT-5.5의 성능에 비해 검증 성공률을 실질적으로 향상시킵니다. DafnyBench에서 AxDafny는 92.7%의 검증 성공률을 달성하며, 이전에 보고된 가장 강력한 증명 힌트(proof-hint) 베이스라인보다 6.5%포인트 높은 성능을 기록했습니다. 마지막으로, 우리는 검증 성공률과 런타임 테스트 성능이 생성된 코드의 서로 다른 측면을 측정한다는 것을 보여줍니다.

Insights

AxDafny: Dafny에서의 에이전트 기반 검증 코드 생성

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들