arXiv논문2026. 05. 28. 12:37

무기로서의 코드: 악성 코드 요청에 대한 코딩 모델의 준수 여부를 측정하기 위한 합의 라벨링 프롬프트 뱅크

요약

코딩 모델이 악성 코드 생성 요청에 응답하는 위험성을 측정하기 위해, 실행 가능한 코드와 유해 지식을 구분하는 새로운 프롬프트 뱅크를 제안합니다. 8개의 기존 코퍼스를 통합하고 5인 판사 합의 프로토콜을 통해 신뢰도 높은 벤치마크를 구축했습니다.

핵심 포인트

실행 가능한 악성 코드와 유해 보안 지식을 명확히 구분
8개의 파편화된 기존 코퍼스를 통합한 새로운 뱅크 구축
5인 판사 합의 프로토콜을 통한 높은 통계적 신뢰성 확보
코딩 모델의 엄격한 거부 기준(refusal bar) 측정을 위한 도구 제공

유해한 질문에 답하는 범용 언어 모델은 텍스트를 반환하지만, 악성 요청에 응하는 코딩 모델은 키로거 (keylogger), 랜섬웨어 스텁 (ransomware stub), 작성된 대로 실행되는 익스플로잇 (exploit)과 같이 작동하는 무기를 반환할 수 있습니다. 이러한 단일 준수 행위의 심각성 차이는 코딩 특화 모델이 범용 채팅 모델보다 더 낮은 거부 기준이 아닌, 더 높은 거부 기준 (refusal bar)을 통과해야 함을 의미하지만, 현재 이 분야에서는 모델들이 실제로 그러한지를 판단할 수 없습니다. 악성 코드에 대한 거부 벤치마크 (refusal benchmarks)는 파편화되어 있습니다. 즉, 실행 가능한 소프트웨어 (즉시 실행 가능한 무기) 요청과 유해한 보안 지식 (인간이 여전히 실행에 옮겨야 하는 정보) 요청을 혼합하고 있으며, 비교 불가능한 코퍼스 (corpora)에 대해 거부율을 보고하므로, 실제로 중요한 속성을 측정하는 단일 통계치가 존재하지 않습니다. 본 논문은 이 두 가지 요청 유형을 구분하고, 코퍼스 간 코딩 모델 준수 측정을 위한 구성 개념적으로 안정적인 (construct-stable) 기질을 제공하는 확장된 합의 라벨링 프롬프트 뱅크 (consensus-labeled prompt bank)를 소개합니다. 8개의 코퍼스 (ASTRA, CySecBench, AdvBench/harmful_behaviors, JailbreakBench, MalwareBench, RedCode, RMCBench, Scam2Prompt)를 통합하고 5인 판사 합의 프로토콜 (6,675개 프롬프트 x 5인 판사 = 33,375회 호출)에 따라 분류했습니다. 패널은 Fleiss' kappa = 0.767 [95% CI 0.755, 0.777] ("상당한 수준")에 도달했습니다. 프롬프트의 95.0%가 최소 4명의 일치하는 판사를 확보했으며, 76.9%는 만장일치였고, 패널은 3,133개의 공유된 프롬프트에 대해 Cohen's kappa = 0.952로 이전의 4개 코퍼스 릴리스를 재현했습니다. 공개된 뱅크는 4,748개의 합의된 CODE 프롬프트 (실행 가능한 악성 코드 요청)와 1,923개의 합의된 KNOWLEDGE 프롬프트 (유해한 보안 지식 요청)로 구성됩니다. 이 뱅크는 이 분야에 부족했던 검증된 도구입니다. 즉, 코딩 모델이 그들의 실행 가능한 출력이 요구하는 더 엄격한 거부 표준을 충족하는지 테스트하기 위한 신뢰성이 정량화된 기반입니다.

AI 자동 생성 콘텐츠

원문 바로가기

무기로서의 코드: 악성 코드 요청에 대한 코딩 모델의 준수 여부를 측정하기 위한 합의 라벨링 프롬프트 뱅크

요약

핵심 포인트

댓글