AI 지원 코드 내 환각 패키지 임포트의 베이지안 보정 탐지
요약
LLM이 생성한 코드 내 환각 패키지 임포트를 탐지하기 위해 베이지안 보정 레이어를 적용한 slopsquat 탐지기를 제안합니다. PyPI 메타데이터를 활용하여 기존 이진 탐지기가 놓치는 의심스러운 패키지를 식별하고, 위험 인식 프리미티브를 통해 CI 게이트에서 활용 가능한 확률적 탐지 성능을 제공합니다.
핵심 포인트
- 베이지안 보정을 통한 환각 패키지 임포트의 확률적 탐지
- PyPI 메타데이터를 활용한 '등록되었으나 의심스러운' 패키지 식별
- Claude, Mistral, DeepSeek 등 다양한 모델 패널을 통한 성능 검증
- CI/CD 파이프라인에서 직접 활용 가능한 위험 인식 프리미티브 제공
우리는 대규모 언어 모델(LLMs)이 생성한 코드에서 환각 패키지 임포트(hallucinated package imports)를 식별하는 slopsquat 탐지기를 위한 베이지안 보정(Bayesian calibration) 레이어를 제시합니다. 기존의 파이프라인이 이진 결정(플래그 표시 / 표시 안 함)을 내리는 것과 달리, 우리의 레이어는 각 사전 확률(prior)을 경험적으로 보정됨(empirically calibrated), 건설적으로 논증됨(constructively argued), 또는 엔지니어링 판단 추적됨(engineering-judgement-traced)의 3개 카테고리 인식론적 분류(epistemic taxonomy)로부터 도출된 탐지당 Beta-사후 확률(Beta-posterior probability)을 출력합니다. 주요 200/404 레지스트리 채널 외에도, 보정된 레이어는 PyPI 메타데이터 신호(패키지 연령, 릴리스 횟수, 저자 설명, 요약)를 활용하여 이진 레지스트리 탐지기가 놓치는 '등록되었으나 의심스러운' 패키지를 표면화하며, 이는 LLM 생성 이후의 현실적인 공격자 체제(attacker regime)에 대응합니다. 결과적으로 생성된 위험 인식 프리미티브(risk-aware primitive)는 다운스트림 CI 게이트에서 직접 소비할 수 있으며, 탐지 규칙 전반에 걸쳐 원칙적인 임계값 결정을 지원합니다. 우리는 1,734개의 Python 코드 조각이 병합된 코퍼스에서 보정 성능을 평가했습니다. 이 코퍼스는 4개의 클라우드 모델(Claude-Sonnet-4.6, Mistral-Large, DeepSeek-v4-pro, DeepSeek-R1)과 2개의 로컬 오픈 웨이트(open-weight) 코드 모델(Mistral Codestral, Meta CodeLlama)을 아우르는 6개 모델 패널을 통해 생성된, 계층화된 189-프롬프트 BigCodeBench 슬라이스 및 100-프롬프트 니치 라이브러리(niche-library) 스트레스 테스트 세트로 구성됩니다. 우리의 정답(ground truth)과 레지스트리 오라클(registry oracle)을 공유하여 진정한 경쟁자라기보다 퇴화된 상한선(degenerate upper bound) 역할을 하는 Mahmud 등의 연구에서 영감을 받은 재구현된 이진 베이스라인과 비교했을 때, 보정된 레이어는 엄격한 레지스트리 탐지를 재현하는 동시에 메타데이터 채널에서 잘 보정된 추가 플래그를 도입합니다. 우리는 McNemar 쌍체 검정(McNemar paired test)을 통해 탐지기 비대칭성을 평가하고, 플래그가 지정된 하위 집합의 기대 보정 오차(Expected Calibration Error) 및 엄격하게 적절한(strictly proper) 전체 코퍼스 브라이어 점수(Brier score)를 통해 보정 성능을 평가합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기