arXiv논문2026. 06. 04. 13:44

Vul-RAG 재고: Open-Weight 모델을 활용한 RAG 기반 취약점 탐지의 재현성 및 복제 가능성 연구

요약

본 연구는 RAG 기반 취약점 탐지 프레임워크인 Vul-RAG의 재현성과 복제 가능성을 Open-weight 모델을 통해 검증합니다. 실험 결과, 로컬 환경에서도 결과가 재현됨을 확인했으나 모델 규모의 증가가 성능 향상으로 직결되지 않는 정체 현상을 발견했습니다.

핵심 포인트

Vul-RAG 프레임워크의 로컬 Open-weight 모델 재현성 확인
모델 용량 증가가 취약점 탐지 성능 개선으로 이어지지 않는 정체 현상 관찰
다양한 코드 특화 및 범용 Open-weight LLM을 통한 성능 평가
탐지 효과성, 모델 능력, 규모 간의 트레이드오프 분석

대규모 언어 모델 (LLMs)은 특히 검색 증강 생성 (RAG) 환경에서 자동화된 소프트웨어 취약점 탐지에 강력한 잠재력을 보여주었습니다. 그러나 독점 모델 (Proprietary models) 및 API에 의존하는 접근 방식의 경우, 재현성 (Reproducibility)과 복제 가능성 (Replicability)이 여전히 거의 탐구되지 않은 상태이며, 이는 보고된 결과가 일반화될 수 있는지 아니면 주로 특정 모델 선택에 의존하는지에 대한 의문을 제기합니다. 본 연구에서는 고수준의 취약점 지식으로 LLMs를 강화하는 RAG 기반 소스 코드 취약점 탐지 프레임워크인 Vul-RAG에 대한 재현성 연구를 제시합니다. 우리는 먼저 보고된 Open-weight 베이스라인 모델들을 사용하여 완전히 로컬이며 Open-weights 설정에서 결과를 복제합니다. 그런 다음, 다양한 파라미터 크기를 가진 코드 특화 모델, 범용 모델 및 추론 모델을 포함하여 최근의 다양한 Open-weight LLMs로 평가를 확장합니다. 결과는 Vul-RAG의 발견 사항이 로컬 배포 환경에서 약간의 편차와 함께 재현 가능하다는 것을 확인해 줍니다. 평가된 모든 모델에 걸쳐, 우리는 약 0.30의 쌍별 정확도 (Pairwise accuracy; 취약한 함수와 패치된 함수가 모두 올바르게 분류된 코드 쌍)에서 성능 정체 현상을 관찰합니다. 특히, 이러한 정체 현상은 더 최신의 고급 모델에서도 지속되며, 이는 모델 용량(Model capacity)의 향상만으로는 성능을 실질적으로 개선하지 못함을 나타냅니다. 마지막으로, 우리는 탐지 효과성, 모델 능력 및 모델 규모 사이의 실질적인 시사점과 트레이드오프 (Trade-offs)를 논의합니다. 구현 및 평가 아티팩트는 https://github.com/hs-esslingen-it-security/revisiting-Vul-RAG 에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Vul-RAG 재고: Open-Weight 모델을 활용한 RAG 기반 취약점 탐지의 재현성 및 복제 가능성 연구

요약

핵심 포인트

댓글