arXiv논문2026. 06. 10. 11:47

다국어 소프트웨어 취약점 탐지를 위한 Transformer 모델의 초기 비교 평가

요약

본 논문은 HTML, Python, JavaScript, PHP 등 다양한 언어 환경에서 Transformer 기반 모델의 소프트웨어 취약점 탐지 성능을 비교 평가합니다. BERT, RoBERTa, CodeBERT를 활용하여 다국어 환경에서의 이진 취약점 탐지 능력을 분석했습니다.

핵심 포인트

CVEFixes 데이터셋과 3-겹 층화 교차 검증 사용
BERT, RoBERTa, CodeBERT 모델 간 성능 차이 확인
다국어 취약점 탐지를 위한 언어 인지적 모델링 필요성 제시

현대 애플리케이션이 여러 프로그래밍 언어를 결합함에 따라 소프트웨어 취약점 탐지 (Software vulnerability detection)의 중요성이 점점 커지고 있습니다. 본 논문은 CVEFixes 데이터셋과 언어별 3-겹 층화 교차 검증 (three-fold stratified cross-validation)을 사용하여 HTML, Python, JavaScript, PHP 전반에 걸친 이진 취약점 탐지 (binary vulnerability detection)를 위한 BERT, RoBERTa, 그리고 CodeBERT의 초기 비교 평가를 제시합니다. 결과는 언어 전반에 걸쳐 명확한 성능 차이를 보여주며, 이는 다국어 취약점 탐지 (multilingual vulnerability detection)를 위해 더욱 언어 인지적이고 강건한 Transformer 기반 모델링 전략이 필요함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

다국어 소프트웨어 취약점 탐지를 위한 Transformer 모델의 초기 비교 평가

요약

핵심 포인트

댓글