arXiv논문2026. 06. 10. 11:47

AI 코드 생성기에 대한 문맥 기반 적대적 공격: 취약성 분석 및 시사점

요약

AI 코드 생성 시스템을 대상으로 주석이나 변수명을 이용한 문맥 기반 적대적 공격의 취약성을 분석한 연구입니다. 실험 결과 GPT-3.5-Turbo 등 주요 모델에서 취약성 생성률이 급증했으며, 이를 방어하기 위한 이중 계층 방어 프레임워크의 실효성을 입증했습니다.

핵심 포인트

문맥 기반 공격 시 취약성 생성률이 최대 10.7배 증가
GPT-3.5-Turbo에서 직접 지시 공격 성공률 100% 기록
모델 간 공격 전이성이 60-100%로 매우 높게 나타남
89.1% 탐지율을 가진 실시간 방어 프레임워크 제안

AI 기반 코드 생성 시스템은 소프트웨어 개발을 변화시켰으나, 추론 시간 (inference-time)의 심각한 보안 취약성을 야기합니다. 본 연구는 주석, 문서, 변수 이름을 포함하여 전략적으로 설계된 문맥적 입력이 대규모 언어 모델 (LLM)을 악용 가능한 코드를 생성하도록 편향시키는 문맥 기반 적대적 공격 (context-based adversarial attacks)에 대한 체계적인 조사를 제시합니다. CodeT5+, CodeLlama, GPT-3.5-Turbo, 그리고 GPT-4를 대상으로 수행한 2,800회의 통제된 실험을 통해, 공격의 효과성과 방어 메커니즘을 정량화합니다. 결과에 따르면 적대적 조건에서 취약성 생성률이 10.7배(3.5%에서 37.4%로) 증가했으며, 직접적인 지시 공격 (direct instruction attacks)은 GPT-3.5-Turbo에서 100%의 성공률을 달성했습니다. 모델 간 전이성 (cross-model transferability)은 60-100%에 달하며, 이는 특정 모델의 결함이라기보다 시스템적인 아키텍처 취약성을 나타냅니다. 본 연구의 이중 계층 방어 프레임워크 (dual-layer defense framework)는 0.3%의 오탐률 (false positives)과 520ms의 지연 시간 (latency)으로 89.1%의 탐지율을 달성하여, 개발 환경에서의 실시간 배포를 위한 실질적인 타당성을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

AI 코드 생성기에 대한 문맥 기반 적대적 공격: 취약성 분석 및 시사점

요약

핵심 포인트

댓글