Tencent/AICGSecEval: 리포지토리 수준의 AI 생성 코드 보안 평가 프레임워크
요약
Tencent Wukong Code Security Team이 개발한 AICGSecEval은 AI가 생성한 코드의 보안성을 프로젝트 수준에서 평가하는 벤치마크 프레임워크입니다. 실제 GitHub 프로젝트와 CVE 패치를 기반으로 정적 및 동적 분석을 결합한 하이브리드 평가 방식을 제공합니다.
핵심 포인트
- 리포지토리 수준의 실제 개발 워크플로우 시뮬레이션
- OWASP Top 10 및 CWE Top 25를 포함한 29가지 취약점 커버리지
- 에이전트 기반 프로그래밍 도구(Agentic Programming Tools) 지원
- 정적 및 동적 분석을 결합한 하이브리드 평가 체계
🚀 Tencent Wukong Code Security Team이 개발한 리포지토리 수준의 AI 생성 코드 보안 평가 프레임워크
「Tencent Wukong Code Security Team」
**A.S.E (AICGSecEval)**는 실제 개발 워크플로우를 시뮬레이션하여 AI 보조 프로그래밍의 보안 성능을 평가하도록 설계된 **AI 생성 코드의 보안성을 평가하기 위한 프로젝트 수준의 벤치마크 (benchmark)**를 제공합니다:
코드 생성 작업 (Code Generation Tasks) – 실제 GitHub 프로젝트와 권위 있는 CVE 패치에서 유도되어, 실무적 관련성과 보안 민감성을 모두 보장합니다.
코드 생성 프로세스 (Code Generation Process) – 프로젝트 수준의 코드 컨텍스트를 자동으로 추출하여 현실적인 AI 프로그래밍 시나리오를 정확하게 시뮬레이션합니다.
코드 보안 평가 (Code Security Evaluation) – 정적 분석 (static analysis)과 동적 분석 (dynamic analysis)을 결합한 하이브리드 평가 스위트를 통합하여, 탐지 범위와 검증 정밀도의 균형을 맞춤으로써 보안 평가의 과학적 엄밀성과 실무적 가치를 높입니다.
우리는 **A.S.E (AICGSecEval)**를 개방적이고, 재현 가능하며, 지속적으로 진화하는 커뮤니티 프로젝트로 구축하는 데 전념하고 있습니다. 데이터셋을 확장하고 평가 프레임워크를 개선할 수 있도록 Star, Fork, Issue, 또는 Pull Request를 통해 기여해 주시기 바랍니다. 여러분의 관심과 기여는 A.S.E의 성장을 도와 AI 생성 코드 보안 분야의 산업적 도입과 학술 연구를 모두 발전시킬 것입니다.
- ✨ A.S.E 프레임워크 설계
- 🧱 2.0 주요 업그레이드
- 🚀 빠른 시작 (Quick Start)
- 📖 인용 (Citation)
- 🤝 기여 가이드
- 🙏 감사 인사
- 📱 커뮤니티 참여
- 📄 라이선스 (License)
1️⃣ 데이터셋 업그레이드 – 코드 생성 취약점 시나리오의 더 넓은 범위 커버리지
OWASP Top 10 및 CWE Top 25의 주요 리스크를 포함하며, C/C++, PHP, Java, Python, JavaScript와 같은 주요 프로그래밍 언어에 걸쳐 29가지 CWE 취약점 유형을 다룹니다.
2️⃣ 평가 대상 업그레이드 – 에이전트 기반 프로그래밍 도구 (Agentic Programming Tools) 지원
실제 AI 프로그래밍 시나리오를 더 잘 반영할 수 있도록 평가 차원을 확장합니다.
3️⃣ 코드 평가 업그레이드 – 정적 및 동적 하이브리드 평가
테스트 케이스(test cases)와 취약점 PoC(Proof of Concept)를 기반으로 한 동적 평가 체계를 도입하여, 탐지 범위(detection breadth)와 검증 정밀도(verification precision) 사이의 균형을 맞춘 하이브리드 평가 프레임워크를 형성하며, 이를 통해 평가 프로세스의 과학적 엄밀성과 실무적 가치를 크게 향상시킵니다.
시스템 요구 사항 (System Requirements)
| 메모리 (Memory) | 디스크 공간 (Disk Space) | Python | Docker |
|---|---|---|---|
| 권장 ≥16GB | ≥100GB | ≥3.11 | ≥27 |
1. Python 의존성 설치 (Install Python Dependencies)
pip install -r requirements.txt
2. 단일 명령어로 평가 실행 (Run Evaluation with One Command)
# 기본 사용법 (Basic Usage)
python3 invoke.py [options...] {--llm | --agent} [llm_options... | agent_options...]
# 사용 가능한 모든 옵션 보기 (View all available options)
...
참고 사항 (Notes)
1️⃣ 전체 평가에는 하드웨어 사양에 따라 오랜 시간이 걸릴 수 있습니다. --max_workers를 조정하여 병렬 처리(concurrency)를 높이고 총 실행 시간을 단축할 수 있습니다.
2️⃣ 이 도구는 자동 체크포인트 복구(automatic checkpoint recovery)를 지원합니다. 실행이 중단된 경우, 명령어를 다시 실행하기만 하면 마지막 상태에서 재개됩니다.
귀하의 연구에서 A.S.E를 사용하거나 그 평가 결과를 참조하는 경우, 다음과 같이 인용해 주세요:
@misc{lian2025aserepositorylevelbenchmarkevaluating,
title={A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code},
author={Keke Lian and Bin Wang and Lei Zhang and Libo Chen and Junjie Wang and Ziming Zhao and Yujiu Yang and Miaoqian Lin and Haotong Duan and Haoran Zhao and Shuang Liao and Mingda Guo and Jiazheng Quan and Yilu Zhong and Chenhao He and Zichuan Chen and Jie Wu and Haoling Li and Zhaoxuan Li and Jiongchi Yu and Hui Li and Dong Zhang},
...
A.S.E는 AI 생성 코드의 보안성을 평가하기 위한 개방적이고, 재현 가능하며, 지속적으로 진화하는 생태계를 구축하는 것을 목표로 합니다.
저희는 학계, 산업계 및 오픈 소스 커뮤니티의 개발자와 연구자들이 이 프로젝트에 협력하고 기여하는 것을 환영합니다.
- 🧠
데이터셋 기여 (Dataset Contribution): 실제 취약점 샘플을 확장하고, SAST(정적 분석 보안 테스트) 도구/규칙을 풍부하게 하며, 코드 기능 테스트 케이스 및 취약점 PoC(Proof of Concept)를 제공합니다. - ⚙️
프레임워크 최적화 (Framework Optimization): 코드 생성 로직, 평가 지표(evaluation metrics) 및 컨텍스트 추출 전략을 개선하며, Agent 통합 및 코드 리팩터링(code refactoring)을 지원합니다. - 💡
토론 및 제안 (Discussions & Suggestions): 새로운 아이디어를 제안하거나, 평가 전략을 공동 개발하거나, 모범 사례(best practices)를 공유합니다.
💬 위 사항 외에도 실제 사용 사례(use cases) 기여, 피드백 제공, 문서 개선 또는 커뮤니티 토론 참여를 포함한 모든 형태의 참여와 지원을 환영합니다.
📌 기여를 계획하고 계신다면, 데이터 형식, 제출 프로세스 및 검증 표준을 이해하기 위해 다음 가이드를 먼저 읽어주시기 바랍니다.
-
📘 데이터셋 기여 가이드 (Dataset Contribution Guide)
-
📘 Agent 통합 가이드 (Agent Integration Guide)
-
💭 이슈 또는 제안 보고: Issues를 통해
-
💡 브레인스토밍 및 토론: Discussions 참여
여러분의 참여와 기여는 A.S.E가 더 빠르게 진화하고, 범위를 확장하며, AI 생성 코드 보안 평가의 오픈 표준화를 발전시키는 데 도움이 될 것입니다.
A.S.E는 Tencent Security Platform Department와 다음과 같은 학술 파트너들이 협력하여 개발합니다:
- 푸단 대학교 (Fudan University, System Software & Security Lab)
- 베이징 대학교 (Peking University, Prof. Hui Li's Team)
- 상하이 교통 대학교 (Shanghai Jiao Tong University, Institute of Network and System Security)
- 칭화 대학교 (Tsinghua University, Prof. Yujiu Yang's Team)
- 저장 대학교 (Zhejiang University, Asst. Prof. Ziming Zhao's Team)
이 프로젝트에 대한 이들의 귀중한 기여에 진심으로 감사드립니다.
🙌 기여자 (Contributors)
AI 인프라 보안에 관심이 있다면, Tencent Zhuque Lab에서 개발한 포괄적이고 지능적이며 사용하기 쉬운 AI 레드팀(Red Teaming) 플랫폼인 A.I.G (AI-Infra-Guard)를 참고하십시오.
이 프로젝트는 Apache-2.0 라이선스 하에 오픈 소스로 제공됩니다. 자세한 내용은 License.txt 파일을 참조하십시오.
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub AI Coding Assistants의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기