안전성의 환상: AI 대 인간의 C++ 코드에 대한 다단계 검증

대규모 언어 모델 (LLM)은 단 하나의 간과된 위반이 악용 가능한 버그가 될 수 있는 메모리 비안전 (memory-unsafe) 언어인 C++를 점점 더 많이 생성하고 있습니다. 그러나 AI가 생성한 코드에 대한 대부분의 보안 평가는 정적 분석 (static analysis)에만 의존하며, 이는 런타임 위반 (runtime violations)을 확인하거나 테스트되지 않은 경로에 대해 추론하지 못한 채 경고만 표시합니다. 우리는 AI가 생성한 C++가 인간이 작성한 코드보다 측정 가능할 정도로 덜 안전한지, 그리고 일반적인 검증 도구들이 그 위험성에 대해 일치된 의견을 보이는지 질문합니다. 우리는 851개의 경쟁 프로그래밍 태스크에 걸쳐 세 가지 오픈 웨이트 (open-weight) LLM (Gemma 3 27B IT, LLaMA 3.3 70B Instruct, Qwen 2.5 Coder 32B Instruct)과 인간 저자가 작성한 8,918개의 C++ 프로그램으로 구성된 벤치마크인 VULBENCH-CPP를 소개합니다. 각 프로그램은 기능 테스트 (functional testing), 정적 분석 (cppcheck, clang-tidy), 동적 분석 (ASan/UBSan), 그리고 유계 모델 검사 (bounded model checking, ESBMC)의 네 가지 검증 단계 (tiers)로 주석이 달렸습니다. 공유된 태스크에 대한 솔루션 간의 상관관계를 고려했을 때, 코드 길이와 테스트 통과율을 통제한 후에도 AI가 생성한 코드는 인간의 코드보다 확인된 런타임 위반을 일으킬 확률이 약 두 배 더 높다는 것을 발견했습니다. 정적 분석 하에서는 두 그룹이 동일하게 안전해 보이지만, 이는 오해의 소지가 있습니다. 이러한 외견상의 유사성은 실제 안전성이 아닌 코드 길이를 반영하며, 각 단계는 대체로 서로 다른 클래스의 위반을 탐지하므로 단일 단계만으로는 충분하지 않습니다. 이 격차는 독립적인 생성 작업 전반에 걸쳐 일관되게 나타납니다.

Insights

안전성의 환상: AI 대 인간의 C++ 코드에 대한 다단계 검증

요약

핵심 포인트

댓글

SAIR 팟캐스트: 타오쩌쉬안, AI 시대의 '증명 소화불량'과 경쟁 새 패러다임

Active Energy, UAE 자산 수익 창출 시작과 함께 전략적 재편 완료

Intrusion, 사이버 보안 기업 VigilAigent 인수 추진

토큰화 (Tokenisation) 규제가 구축됨에 따라 Valereum은 상업 운영 단계로 진입

Active Energy, UAE 자산 수익 창출 시작과 함께 전략적 재편 완료

Intrusion, 사이버 보안 기업 VigilAigent 인수 추진

토큰화 (Tokenisation) 규제가 구축됨에 따라 Valereum은 상업 운영 단계로 진입