말이 코드보다 더 크게 들린다: LLM 기반 코드 취약점 탐지에서의 인지적 휴리스틱(Cognitive Heuristics) 조사
요약
LLM 기반 코드 취약점 탐지 시 발생하는 인지적 휴리스틱(Halo, Framing, Anchoring 효과)을 체계적으로 조사한 연구입니다. 실험 결과 모든 평가 모델이 이러한 편향에 취약하며, 특히 의미론적 추론이 필요한 취약점에서 더 높은 취약성을 보였습니다.
핵심 포인트
- LLM이 인간과 유사한 인지적 편향(후광, 프레이밍, 앵커링)에 노출됨을 증명
- 프레이밍 효과(33.2%)가 모델의 판단에 가장 큰 영향을 미침
- 의미론적 추론이 필요한 취약점이 패턴 매칭 방식보다 편향에 더 취약함
- 인지적 조건을 악용해 탐지 성능을 최대 97%까지 저하시키는 공격 가능성 확인
연구자와 실무자들은 자동화된 취약점 탐지를 위해 대규모 언어 모델(LLMs)을 점점 더 많이 적용하고 있습니다. 최근 연구에 따르면 LLM은 인간의 판단에 편향을 일으키는 것과 동일한 인지적 휴리스틱 (Cognitive Heuristics)에 취약한 것으로 나타났습니다. 그러나 이러한 휴리스틱이 모델의 코드 취약점 평가에 영향을 미치는지 조사한 연구는 아직 없습니다. 본 논문에서 우리는 LLM 기반 코드 취약점 탐지에서의 인지적 휴리스틱에 대한 최초의 체계적인 탐색을 제시합니다. 우리는 코드는 고정된 상태로 유지하면서 주변 문맥(Context)만을 변화시켜 세 가지 인지적 휴리스틱을 유도하는 통제된 프레임워크를 도입합니다: 저자 귀속(Author attribution)을 통한 후광 효과 (Halo effect), 작업 목표 및 결과에 따른 프레이밍 효과 (Framing effect), 그리고 이전 분석 결과에 의한 앵커링 효과 (Anchoring effect)입니다. 이 프레임워크 내에서 우리는 세 가지 프로그래밍 언어에 걸쳐 8개의 LLM을 평가하고, 정량적 분석과 코드 수준 분석을 모두 수행합니다. 우리의 연구 결과는 평가된 모든 모델이 이러한 휴리스틱에 취약함을 보여줍니다. 모델 간 평균 취약성은 프레이밍 (Framing)이 33.2%로 가장 높았으며, 앵커링 (Anchoring)이 23.5%, 후광 (Halo) 효과가 18.4%로 그 뒤를 이었습니다. 코드 수준 분석 결과, 탐지를 위해 의미론적 추론 (Semantic reasoning)이 필요한 취약점이 패턴 매칭 (Pattern matching)을 통해 식별 가능한 취약점보다 인지적 휴리스틱에 더 취약한 것으로 나타났습니다. 또한, 모델들은 실제 취약점을 정확하게 식별하지 못한 채 인지적 조건에 따라 판정을 '안전(Safe)'에서 '취약함(Vulnerable)'으로 변경하는 경우가 빈번했습니다. 실질적인 영향을 강조하기 위해, 우리는 이전에 탐지된 취약점의 최대 97%를 억제할 수 있는 개념 증명(Proof-of-concept) 블랙박스 인지 공격을 시연합니다. 이러한 발견은 인지적 취약성이 LLM 기반 취약점 탐지의 일관되고 악용 가능한 특성임을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기