본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 10:53

FusionVul: 소스 코드 취약점 탐지를 위한 멀티모달 특징 융합 프레임워크

요약

FusionVul은 소스 코드의 순차적 구문 표현과 구조적 의미론을 통합하는 멀티모달 특징 융합 프레임워크입니다. Transformer와 GNN을 결합하여 기존 단일 모달리티 모델의 한계를 극복하고 코드 취약점 탐지 성능을 높였습니다.

핵심 포인트

  • Transformer와 GNN을 활용한 공동 표현 학습 제안
  • 교차 주의(Cross-attention) 기반의 특징 융합 네트워크 적용
  • 샘플 인식 가중치 메커니즘을 통한 예측 분기 통합
  • SVulD, DiverseVul 데이터셋에서 우수한 F1 점수 달성

현대 코드베이스의 규모 증가, 구조적 복잡성, 그리고 의미론적 다양성으로 인해 소스 코드 취약점 탐지(Source code vulnerability detection)는 오랫동안 해결해야 할 과제로 남아 있습니다. 기존의 정적 분석(Static-analysis) 또는 규칙 기반(Rule-based) 접근 방식은 미묘한 실행 의존성(Execution dependencies)을 포착하는 데 실패하는 경우가 많으며, 단일 모달리티(Single-modality) 학습 모델은 소스 코드의 어휘적 표면 너머에 내재된 중요한 구조적 정보를 간과하는 경향이 있습니다. 이질적인 코드 패턴 전반에 걸쳐 강건성(Robustness)을 향상시키기 위해, 본 논문에서는 사전 학습된 Transformer 인코더(Transformer encoder)에 의해 추출된 순차적 구문 표현(Sequential syntactic representations)과 그래프 신경망(Graph neural network)을 통해 전파되는 구조적 의미론(Structural semantics)을 통합하는 공동 표현 학습(Joint representation learning) 프레임워크인 FusionVul을 제안합니다. 또한, 이 프레임워크는 세밀한 교차 모달 상호작용(Cross-modal interaction)을 가능하게 하는 교차 주의(Cross-attention) 기반 특징 융합 네트워크를 포함하며, 여러 예측 분기(Predictive branches)를 통합하기 위해 샘플 인식 가중치 메커니즘(Sample-aware weighting mechanism)을 채택합니다. 네 가지 데이터셋에 대한 실험 결과, FusionVul은 SVulD 및 DiverseVul과 같이 함수 크기 분포가 매우 분산되어 있고 취약점 유형의 범위가 넓은 데이터셋에서 우수한 F1 점수를 달성하였으며, 이는 복잡하고 다양한 취약점 패턴을 포착하는 능력을 반영합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0