ContraFix: 차분 런타임 증거(Differential Runtime Evidence)와 기술 재사용을 통한 에이전트 기반 취약점 수정

대규모 언어 모델 (LLM) 에이전트는 자동화된 취약점 수정 (AVR, Automated Vulnerability Repair)을 위해 점점 더 많이 사용되고 있으며, 저장소 수준의 추론 (repository-level reasoning)을 통해 문맥을 조사하고 소스 코드 패치 (source-code patches)를 생성할 수 있습니다. 그러나 최근의 실증적 결과에 따르면, 이러한 에이전트들은 여전히 실제 환경의 취약점 해결에 어려움을 겪고 있습니다. 이들의 주요 실패 모드는 의미론적 오해 (semantic misunderstanding)로, 근본 원인 (root cause)과 일치하지 않는 수정 방향을 선택하는 것입니다. 우리는 이러한 격차가 발생하는 두 가지 이유를 식별했습니다. 기존 에이전트들은 대개 실패한 실행 (failing execution)만으로 추론합니다. 크래시 보고서 (crash report)는 프로그램이 어디서 실패했는지는 정확히 짚어낼 수 있지만, 결함 지점 근처의 수많은 후보 중에서 어떤 변수나 상태 전이 (state transition)가 크래시가 발생하는 동작과 안전한 실행을 구분 짓는지에 대해서는 알려주지 않습니다. 그 결과, 에이전트들은 인과적 해결책 (causal fixes) 대신 증상 중심의 패치 (symptom-oriented patches)를 생성하는 경우가 많습니다. 또한, 하나의 취약점에 대해 수집된 증거는 거의 유지되지 않으므로, 이후의 저장소에 있는 유사한 사례들을 다시 처음부터 진단해야 합니다. 우리는 차분 런타임 증거 (differential runtime evidence)와 재사용 가능한 수정 기술 (reusable repair skills)을 결합한 에이전트 기반 AVR 프레임워크인 ContraFix를 제안합니다. ContraFix의 Mutator는 실패 경계 (failure boundary)를 가로지르는 PoC 변형들을 구축하며, Analyzer는 결함 영역 주변에 상태 프로브 (state probes)를 삽입하고 크래시가 발생하는 실행과 발생하지 않는 실행 사이의 차이점을 수정 명세 (repair specification)로 요약하며, Patcher는 이 명세를 검증된 소스 패치로 변환합니다. 성공적인 수정이 이루어질 때마다 수정 명세와 변이 전략 (mutation strategies)을 포함하는 2트랙 기술 베이스 (two-track skill base)가 업데이트되며, 이는 향후 사례를 위해 3단계 정책 (three-tier policy)을 통해 검색됩니다. SEC-Bench (C/C++, 200개 사례)와 PatchEval (Go, Python, JavaScript, 225개 사례)에서 GPT-5-mini를 사용한 ContraFix는 각각 84.0%와 73.8%의 과제를 해결하였으며, 가장 강력한 비교 대상 베이스라인 비용의 3분의 1 미만을 사용하면서 두 벤치마크 모두에서 최첨단 성능 (state-of-the-art performance)을 달성했습니다.

Insights

ContraFix: 차분 런타임 증거(Differential Runtime Evidence)와 기술 재사용을 통한 에이전트 기반 취약점 수정

요약

핵심 포인트

댓글

AI 시네마틱 콘텐츠 제작의 어려움과 해결책

b9917: 수정 사항: UGM 토크나이저의 OOB 읽기 문제 해결 (precompiled_charsmap 처리)

AstraZeneca, Sino Biopharmaceutical의 COPD 치료제 라이선스 계약에 2억 달러 선지급

대량 데이터를 가볍게 표시하려면 UI Toolkit의 ListView를 확인해 보세요 📋

b9917: 수정 사항: UGM 토크나이저의 OOB 읽기 문제 해결 (precompiled_charsmap 처리)

AstraZeneca, Sino Biopharmaceutical의 COPD 치료제 라이선스 계약에 2억 달러 선지급

대량 데이터를 가볍게 표시하려면 UI Toolkit의 ListView를 확인해 보세요 📋