이해 없는 보정: 시스템 소프트웨어 취약점 탐지를 위한 LLM 미세 조정(Fine-Tuning)의 한계 진단
요약
LLM의 시스템 소프트웨어 취약점 탐지 능력을 분석한 연구로, 미세 조정이 근본적인 보안 추론 능력을 향상시키기보다 단순한 출력 분포 조정에 그친다는 점을 밝혀냈습니다. CWE-Trace 프레임워크를 통해 데이터 오염의 영향이 미미하며, 모델의 사전 확률이 미세 조정을 압도한다는 사실을 증명했습니다.
핵심 포인트
- 미세 조정은 보안 추론 능력을 높이기보다 출력 임계값만 이동시키는 '이해 없는 보정'에 가깝습니다.
- 데이터 오염이 탐지 성능에 미치는 실질적인 이점은 측정 가능한 수준이 아닙니다.
- LLM의 백본 모델이 가진 방향성 사전 확률이 미세 조정 효과를 압도합니다.
- 현재 LLM은 시스템 소프트웨어 보안에 대해 신뢰할 수 있는 추론 능력이 부족합니다.
취약점 벤치마크에서 높은 점수를 기록하는 LLM(Large Language Models)이 진정으로 보안에 대해 추론하는 것인지, 아니면 오염된 데이터(contaminated data)에서 단순히 패턴 매칭을 수행하는 것인지는 여전히 해결되지 않은 문제입니다. 우리는 74개의 CWE를 아우르는 834개의 수동 큐레이션된 Linux 커널 샘플로 구축된 LLM 취약점 탐지 프레임워크인 CWE-Trace를 제시합니다. 이 프레임워크는 엄격한 시계열 분할(2025년 이전의 역사적 데이터 세트 / 컷오프 이후의 누출 없는 데이터 세트)을 강제하고, 문맥을 인식하는 취약한--패치된 쌍(vulnerable--patched pairs)을 보존하며, 두 가지 진단 지표인 방향성 실패 지수(Directional Failure Index, DFI)와 계층적 거리 및 방향(Hierarchical Distance and Direction, HDD)을 도입합니다. 우리는 비대상 탐지(non-targeted detection), 대상 탐지(targeted detection), 그리고 CWE 분류에 대해 8개의 바닐라(vanilla) LLM과 15개의 LoRA 미세 조정(fine-tuned) 변형 모델을 평가합니다. 우리의 분석은 두 가지 핵심 결과를 도출합니다. 첫째, 데이터 오염(data contamination)은 측정 가능한 이점을 제공하지 않습니다. 함수 수준의 분석에 따르면, 명목상 오염된 샘플의 84%는 사용 가능한 암기 신호(memorization signal)를 포함하지 않습니다. 즉, 취약한 함수가 부재하거나 데이터 세트 간에 교차 매핑되어 있으며, 오염된 샘플의 약 31%는 CWE 오분류를 포함합니다. 둘째, 백본(backbone)의 방향성 사전 확률(directional priors)이 미세 조정을 압도합니다. 모델들은 역사적 데이터에서 컷오프 이후 데이터에 이르기까지 지속되며 교정이 어려운 안정적이고 체계적인 실패 모드(DFI 범위 -85.5 ~ +94.8 pp)를 보입니다. 미세 조정은 결정 정책(decision policy)을 변경하지 않고 출력 임계값(output threshold)만을 이동시킵니다. 이것은 이해 없는 보정(calibration without comprehension)입니다. 즉, 근본적인 보안 추론은 결여된 채 출력 분포만 학습 데이터에 적응하는 것입니다. 이진 탐지(binary detection)에서 가장 약한 백본인 DeepSeek-R1이 거친(coarse) CWE 분류에서 가장 큰 이득을 얻었으며, 이는 탐지와 이해가 분리된 능력임을 드러냅니다. 최고의 탐지 점수는 단 52.1%(우연 확률보다 +2.1 pp 높음)에 불과하며, 정확한 CWE 순위는 Top-1 정확도 기준 1.3% 미만에 머물러, 현재의 LLM이 미세 조정 전략과 관계없이 시스템 소프트웨어에 대한 신뢰할 수 있는 보안 추론 능력이 부족함을 확인시켜 줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기