범위는 줄었으나 위협은 여전하다: 2026년 프론티어 모델 코호트를 통한 LLM 패키지 환각 (Hallucination) 재평가
요약
최신 프론티어 코드 생성 LLM들을 대상으로 패키지 이름 환각 현상을 재평가한 결과, 환각률은 이전 연구보다 낮아졌으나 여전히 보안 위협이 존재함을 확인했습니다. 특히 여러 모델이 공통적으로 생성하는 환각 패키지 이름들이 발견되어, 모델에 관계없이 발생하는 공급망 공격(slopsquatting)의 위험성을 경고합니다.
핵심 포인트
- 최신 프론티어 모델들의 패키지 환각률은 약 4.62%에서 6.10% 사이로 측정됨
- 다양한 모델이 공통적으로 생성하는 127개의 환각 패키지 이름이 식별되어 모델 불가지론적(model-agnostic) 공격 표면 형성
- DeepSeek V3.2와 GPT-5.4-mini 사이의 높은 Jaccard 유사도를 통해 학습 데이터의 유사성 가능성 시사
- Anthropic 모델군 내에서 모델 크기에 따른 환각 성능 역전 현상 관찰
Spracklen 등(USENIX Security '25)은 코드 생성 대규모 언어 모델 (LLM)이 PyPI 또는 npm에 존재하지 않는 패키지 이름을 환각 (Hallucination)하는 현상을 보여주었습니다. 그 비율은 상용 모델의 경우 5.2%에서 오픈 소스 모델의 경우 21.7%에 달하며, 이는 환각된 이름으로 악성 패키지를 등록하는 슬롭스쿼팅 (slopsquatting) 공격 표면을 생성합니다. 우리는 2025년 10월부터 2026년 3월 사이에 출시된 5개의 프론티어 코드 가능 LLM인 Claude Sonnet 4.6, Claude Haiku 4.5, GPT-5.4-mini, Gemini 2.5 Pro, DeepSeek V3.2를 대상으로 그들의 방법론을 재현했습니다. PyPI 및 npm 마스터 리스트를 통해 검증된 199,845개의 Python 및 JavaScript 쌍 프롬프트 전반에 걸쳐, 우리는 전체 환각률이 4.62% (Claude Haiku 4.5)에서 6.10% (GPT-5.4-mini) 사이임을 측정했습니다. 이는 Spracklen이 관찰했던 모델 간 편차를 한 자릿수 수준으로 압축한 것이지만, 위협이 사라진 것은 아닙니다. 재현을 넘어, 우리는 평가된 5개 모델 모두가 동일하게 만들어내는 127개의 패키지 이름 세트(PyPI 109개, npm 18개)를 식별하였으며, 이는 단일 모델 연구로는 밝혀낼 수 없는 모델 불가지론적 (model-agnostic) 공급망 공격 표면을 구성합니다. 나아가 우리는 Spracklen의 2024년 연구 결과를 뒤집는 Python-over-JavaScript 환각 비대칭성을 기록하였고, Anthropic 제품군 내에서 Haiku-below-Sonnet 역전 현상을 식별하였으며, DeepSeek V3.2와 GPT-5.4-mini 사이의 Jaccard 유사도 정점 (J = 0.343)을 관찰하여 공유된 학습 데이터 기원을 시사하는 결과를 도출했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기