본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 01:23

ContraFix: 차분 런타임 증거(Differential Runtime Evidence)와 기술 재사용을 통한 에이전트 기반 취약점 수정

요약

ContraFix는 LLM 에이전트가 취약점 수정 시 겪는 의미론적 오해 문제를 해결하기 위해 차분 런타임 증거와 기술 재사용을 결합한 새로운 AVR 프레임워크입니다. 이 시스템은 실패와 성공 실행 간의 상태 차이를 분석하여 인과적 수정 명세를 생성하며, 학습된 수정 기술을 저장하여 유사한 취약점에 재사용할 수 있도록 설계되었습니다. 실험 결과, GPT-4o-mini(본문 내 GPT-5-mini 오기 추정 포함)를 활용하여 기존 방식 대비 훨씬 적은 비용으로 최첨단 성능을 달성했습니다.

핵심 포인트

  • 기존 에이전트의 한계인 증상 중심 패치(symptom-oriented patches) 문제를 차분 런타임 증거를 통해 해결
  • 실패 경계를 가로지르는 PoC 변형과 상태 프로브를 활용하여 결함의 근본 원인을 식별
  • 수정 명세와 변이 전략을 포함하는 2트랙 기술 베이스를 구축하여 유사 사례에 대한 재사용성 확보
  • SEC-Bench 및 PatchEval 벤치마크에서 기존 베이스라인 대비 1/3 미만의 비용으로 SOTA 성능 달성

대규모 언어 모델 (LLM) 에이전트는 자동화된 취약점 수정 (AVR, Automated Vulnerability Repair)을 위해 점점 더 많이 사용되고 있으며, 저장소 수준의 추론 (repository-level reasoning)을 통해 문맥을 조사하고 소스 코드 패치 (source-code patches)를 생성할 수 있습니다. 그러나 최근의 실증적 결과에 따르면, 이러한 에이전트들은 여전히 실제 환경의 취약점 해결에 어려움을 겪고 있습니다. 이들의 주요 실패 모드는 의미론적 오해 (semantic misunderstanding)로, 근본 원인 (root cause)과 일치하지 않는 수정 방향을 선택하는 것입니다. 우리는 이러한 격차가 발생하는 두 가지 이유를 식별했습니다. 기존 에이전트들은 대개 실패한 실행 (failing execution)만으로 추론합니다. 크래시 보고서 (crash report)는 프로그램이 어디서 실패했는지는 정확히 짚어낼 수 있지만, 결함 지점 근처의 수많은 후보 중에서 어떤 변수나 상태 전이 (state transition)가 크래시가 발생하는 동작과 안전한 실행을 구분 짓는지에 대해서는 알려주지 않습니다. 그 결과, 에이전트들은 인과적 해결책 (causal fixes) 대신 증상 중심의 패치 (symptom-oriented patches)를 생성하는 경우가 많습니다. 또한, 하나의 취약점에 대해 수집된 증거는 거의 유지되지 않으므로, 이후의 저장소에 있는 유사한 사례들을 다시 처음부터 진단해야 합니다. 우리는 차분 런타임 증거 (differential runtime evidence)와 재사용 가능한 수정 기술 (reusable repair skills)을 결합한 에이전트 기반 AVR 프레임워크인 ContraFix를 제안합니다. ContraFix의 Mutator는 실패 경계 (failure boundary)를 가로지르는 PoC 변형들을 구축하며, Analyzer는 결함 영역 주변에 상태 프로브 (state probes)를 삽입하고 크래시가 발생하는 실행과 발생하지 않는 실행 사이의 차이점을 수정 명세 (repair specification)로 요약하며, Patcher는 이 명세를 검증된 소스 패치로 변환합니다. 성공적인 수정이 이루어질 때마다 수정 명세와 변이 전략 (mutation strategies)을 포함하는 2트랙 기술 베이스 (two-track skill base)가 업데이트되며, 이는 향후 사례를 위해 3단계 정책 (three-tier policy)을 통해 검색됩니다. SEC-Bench (C/C++, 200개 사례)와 PatchEval (Go, Python, JavaScript, 225개 사례)에서 GPT-5-mini를 사용한 ContraFix는 각각 84.0%와 73.8%의 과제를 해결하였으며, 가장 강력한 비교 대상 베이스라인 비용의 3분의 1 미만을 사용하면서 두 벤치마크 모두에서 최첨단 성능 (state-of-the-art performance)을 달성했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0