arXiv논문2026. 06. 10. 11:47

코드 언어 모델의 보안 강화: 코드 언어 모델에서의 자연적 백도어 취약점 탐지

요약

CodeLMs에서 데이터 포이즈닝 없이도 발생하는 '자연적 백도어' 취약성을 실증적으로 연구한 논문입니다. 44가지 시나리오를 통해 취약성의 만연함과 전이성을 분석하고, 이를 탐지하기 위한 새로운 방법론인 ScanNBT를 제안합니다.

핵심 포인트

CodeLMs 내 자연적 백도어 취약성의 심각성 입증
데이터셋, 모델 아키텍처, 공유 지식 관점의 전이성 분석
자연적 백도어의 원인을 학습 데이터와 학습 절차 측면에서 조사
새로운 백도어 탐지 방법론 ScanNBT 제안

코드 언어 모델 (CodeLMs)은 소프트웨어 공학의 필수적인 부분이 되었으며, 코드 지능 (code intelligence) 작업을 크게 발전시켰습니다. 그러나 이러한 광범위한 채택은 특히 백도어 공격 (backdoor attacks)에 대한 취약성과 관련하여 심각한 보안 우려를 불러일으켰습니다. 최근 연구들은 일반적인 방식으로 학습된 딥러닝 모델에서 자연적으로 발생하는 백도어, 즉 자연적 백도어 (natural backdoors)를 발견했습니다. 이는 데이터 포이즈닝 (data poisoning)을 통해 도입된 것만큼이나 심각한 위협을 가함에도 불구하고, CodeLMs에서의 자연적 백도어 취약성이 갖는 보안적 함의는 여전히 제대로 이해되지 않은 상태로 남아 있습니다. 본 논문에서 우리는 다양한 모델 아키텍처 (model architectures) 및 코드 지능 작업 전반에 걸쳐 CodeLMs의 자연적 백도어 취약성에 대한 철저한 실증적 연구를 수행합니다. 구체적으로, 우리는 44가지 시나리오에 걸쳐 잠재적인 자연적 백도어 취약성을 조사하며, 이를 통해 자연적 백도어가 CodeLMs에 만연해 있으며 본질적이라는 것을 입증합니다. 우리는 모델 및 파라미터 (parameter) 수준 모두에서 주입된 백도어와 자연적 백도어 취약성 사이의 차이점을 밝혀냅니다. 그런 다음 데이터셋 (datasets), 모델 아키텍처, 그리고 공유된 지식 (shared knowledge)이라는 세 가지 관점에서 자연적 백도어 취약성의 전이성 (transferability)을 분석합니다. 나아가 우리는 학습 데이터셋과 모델 학습 절차라는 두 가지 측면에서 자연적 백도어의 원인을 조사합니다. 우리는 자연적 백도어를 완화하기 위한 사전 학습 (pre-training), 학습 중 (in-training), 그리고 사후 학습 (post-training) 방어 기술을 포함한 기존의 백도어 방어 기술들을 평가합니다. 마지막으로, 우리는 CodeLMs의 자연적 백도어 취약성에 대한 포괄적인 탐지를 개선하기 위해 설계된 새로운 탐지 방법인 ScanNBT를 제안합니다. 우리의 연구 결과가 이러한 취약성에 대한 이해를 높이고, 백도어 위협에 맞서 CodeLM의 보안을 강화하기 위한 통찰력을 제공하기를 기대합니다.

AI 자동 생성 콘텐츠

원문 바로가기

코드 언어 모델의 보안 강화: 코드 언어 모델에서의 자연적 백도어 취약점 탐지

요약

핵심 포인트

댓글