VeriScale: 검증 가능한 코드 생성 (Verifiable Code Generation)을 위한 적대적 테스트 스위트 확장
요약
LLM의 코드 생성 능력을 정확히 평가하기 위해 적대적 테스트 스위트 확장 프레임워크인 VeriScale을 제안합니다. 기존 벤치마크의 한계를 극복하여 모델의 취약점을 드러내는 VerinaPlus와 효율적인 VerinaLite을 구축했습니다.
핵심 포인트
- 코드 생성의 형식적 검증 가능성을 평가하는 새로운 프레임워크 제안
- 적대적 구현을 통한 테스트 스위트 확장 및 정제 프로세스 도입
- 기존 벤치마크 대비 모델의 실제 성능 약점을 효과적으로 식별
- 평가 비용을 낮춘 경량화된 변체 VerinaLite 제공
대규모 언어 모델 (LLMs)이 소프트웨어 공학 분야에 점점 더 많이 배치됨에 따라, 생성된 코드의 기능적 정확성뿐만 아니라 형식적 검증 가능성 (formal verifiability)을 평가하기 위한 고품질 벤치마크를 구축하는 것이 매우 중요해졌습니다. 그러나 기존의 벤치마크들은 긍정적 (positive) 및 부정적 (negative) 테스트 케이스의 양과 질 측면에서 한계가 있으며, 이는 모델이 명세 (specifications) 및 구현 (implementations)을 생성하는 능력을 과대평가하게 만드는 결과를 초래합니다. 이를 해결하기 위해, 우리는 적대적 구현 (adversarial implementations)에 의해 구동되는 새로운 프레임워크인 VeriScale을 제안합니다. 이는 두 단계로 구성됩니다: 다양하고 도전적인 테스트 케이스를 구축하기 위한 테스트 스위트 확장 (test-suite expansion), 그리고 이를 압축적이면서도 변별력 있는 스위트로 정제하기 위한 테스트 스위트 축소 (test-suite reduction)입니다. VeriScale은 범용적이지만, 우리는 이를 Verina에 적용하여 기존 테스트 스위트를 83배 이상 확장한 VerinaPlus와, 14배 가량의 경량화된 변체인 VerinaLite을 구축하였습니다. 8개의 최첨단 (state-of-the-art) LLMs를 대상으로 한 실험을 통해, VerinaPlus는 SpecGen 및 CodeGen 작업 모두에서 급격한 점수 하락을 보임으로써 기존 벤치마크에 숨겨져 있던 모델의 상당한 약점을 드러낸다는 것을 입증하였으며, VerinaLite은 평가 비용을 대폭 낮추면서도 이러한 변별력을 유지함을 보여주었습니다. 강화된 벤치마크와 소스 코드는 https://github.com/XiaoyangLiu-sjtu/VeriScale 에서 공개적으로 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기