arXiv논문2026. 06. 02. 10:35

인간이 작성한 코드와 LLM 생성 코드의 보안성을 비교하는 방법

요약

인간과 LLM이 생성한 코드의 보안성을 객관적으로 비교하기 위한 자동화된 연구 프레임워크를 제안합니다. 이 프레임워크는 인간 단독, LLM 단독, 하이브리드 방식의 실험을 지원하며 정적 및 동적 분석을 통해 보안 품질을 측정합니다.

핵심 포인트

인간과 LLM 생성 코드 간 보안성 비교를 위한 자동화 프레임워크 제안
프롬프트, 타이밍, 실험 로그 자동화 및 다차원 품질 분석 제공
재현 가능한 '종 간 공정성(species-fair)' 실험 방법론 제시
오픈 소스 구현체를 통한 소프트웨어 보안 연구 토대 마련

대규모 언어 모델 (LLMs)은 소프트웨어가 생성되고 유지 관리되는 방식을 빠르게 변화시키고 있습니다. LLM이 생성한 코드를 인간이 작성한 표준과 비교하는 것은, 이러한 새로운 도구들이 전문 개발자들이 구축한 보안 기준 (security baselines)을 유지하는지 아니면 약화시키는지 판단하는 데 필수적입니다. 그러나 인간과 LLM의 협업을 통해 생성된 코드의 보안성을 LLM 단독 방식 또는 전통적인 인간 단독 방식과 실증적으로 비교하기 위한 표준화된 방법이 부족한 실정입니다. 이를 용이하게 하기 위해, 우리는 인간 단독 (human-only), LLM 단독 (LLM-only), 그리고 하이브리드 (hybrid) 조건 전반에 걸쳐 비교 연구를 수행할 수 있는 자동화된 프레임워크를 제안합니다. 우리의 접근 방식은 프롬프트 (prompts), 타이밍 (timing), 실험 설정의 로깅을 자동화하며, 다차원적인 정적 및 동적 품질 분석 (static and dynamic quality analysis)을 통해 결과를 측정합니다. 우리는 미래의 연구자들이 재현 가능하고 종 간 공정성 (species-fair)을 갖춘 실험을 수행할 수 있도록 이 프레임워크의 오픈 소스 구현체를 제공합니다. 중요한 점은, 타당성 조사 (feasibility study)를 통해 프레임워크를 검증함으로써 인간과 AI 피험자 간의 "종 간 공정성 (species-fair)" 비교를 위한 실험적 청사진을 제공한다는 것입니다. 학습된 교훈을 공유함으로써, 우리는 소프트웨어 보안을 위한 인간 및 LLM 생성 코드에 대한 실증적 연구의 토대를 마련합니다.

AI 자동 생성 콘텐츠

원문 바로가기

인간이 작성한 코드와 LLM 생성 코드의 보안성을 비교하는 방법

요약

핵심 포인트

댓글