arXiv논문2026. 06. 15. 08:17

문법 제약 디코딩 (Grammar-Constrained Decoding)이 LLM을 악성 코드 생성으로 유도하는 탈옥(Jailbreak)

요약

문법 제약 디코딩(GCD)을 악용하여 LLM이 악성 코드를 생성하도록 유도하는 새로운 탈옥 공격 방식인 CodeSpear를 소개합니다. 이에 대응하여 문법 제약 하에서도 안전한 동작을 유지하는 방어 기법인 CodeShield를 제안합니다.

핵심 포인트

GCD가 코드의 신뢰성을 높이지만 동시에 새로운 공격 표면이 될 수 있음을 발견
CodeSpear 공격은 기존 탈옥 방식보다 평균 30%p 높은 공격 성공률을 기록
CodeShield는 허니팟 코드를 통해 문법 제약 하에서도 모델의 안전성을 유지
코드 생성 모델의 보안을 위해 문법 제약 기술에 대한 주의가 필요함

대규모 언어 모델 (LLMs)은 코드 생성 분야에서 점점 더 많이 사용되고 있으며, 이는 악성 코드를 생성하는 데 오용될 수 있다는 우려를 낳고 있습니다. 한편, 문법 제약 디코딩 (Grammar-Constrained Decoding, GCD)은 구문적 유효성 (syntactic validity)을 강제함으로써 LLM이 생성한 코드의 신뢰성을 높이기 위해 널리 채택되어 왔습니다. 본 논문에서 우리는 직관에 반하는 위험성을 밝혀냅니다. 즉, 이러한 신뢰성 지향적 기술 자체가 공격 표면 (attack surface)이 될 수 있다는 점입니다. 우리는 GCD를 악용하여 LLM이 악성 코드를 생성하도록 유도하는 CodeSpear라고 명명된 새로운 탈옥 (jailbreak) 공격을 발견했습니다. 우리의 실험에 따르면, 단순히 무해한 코드 문법 제약을 적용하는 것만으로도 LLM을 효과적으로 탈옥시킬 수 있습니다. 이러한 취약점을 해결하기 위해, 우리는 공격자가 제어하는 문법 제약 하에서도 안전한 동작을 견고하게 유지하는 안전 정렬 (safety alignment) 접근 방식인 CodeShield를 제안합니다. CodeShield는 GCD 하에서 허니팟 (honeypot) 코드를 생성하도록 학습시킴으로써 코드 모달리티 (code modality)에서 모델을 정렬합니다. 이러한 코드는 의미론적으로 무해하여 악성 요청을 구현하지 않으며, 구조적으로 다양하여 문법 강화 (grammar tightening)를 통해 억제하기 어렵습니다. 동시에, CodeShield는 자연어가 사용 가능할 때 자연어 거부 (natural-language refusals) 기능을 여전히 유지합니다. 4개의 벤치마크에 걸쳐 10개의 대중적인 LLM을 대상으로 한 실험 결과, CodeSpear는 대표적인 탈옥 베이스라인 (jailbreak baselines)보다 성능이 뛰어났으며 공격 성공률을 평균 30퍼센트 포인트 이상 높였습니다. CodeShield 또한 무해한 유용성을 유지하면서 CodeSpear 공격 하에서의 안전성을 회복시킵니다. 우리의 연구 결과는 GCD의 근본적인 위험을 드러내며, 그 잠재적인 보안 영향에 대해 더 큰 주의를 기울일 것을 촉구합니다.

AI 자동 생성 콘텐츠

원문 바로가기

문법 제약 디코딩 (Grammar-Constrained Decoding)이 LLM을 악성 코드 생성으로 유도하는 탈옥(Jailbreak)

요약

핵심 포인트

댓글