Tencent/AICGSecEval: 리포지토리 수준의 AI 생성 코드 보안 평가 프레임워크

🚀 Tencent Wukong Code Security Team이 개발한 리포지토리 수준의 AI 생성 코드 보안 평가 프레임워크

「Tencent Wukong Code Security Team」

**A.S.E (AICGSecEval)**는 실제 개발 워크플로우를 시뮬레이션하여 AI 보조 프로그래밍의 보안 성능을 평가하도록 설계된 **AI 생성 코드의 보안성을 평가하기 위한 프로젝트 수준의 벤치마크 (benchmark)**를 제공합니다:

코드 생성 작업 (Code Generation Tasks) – 실제 GitHub 프로젝트와 권위 있는 CVE 패치에서 유도되어, 실무적 관련성과 보안 민감성을 모두 보장합니다.
코드 생성 프로세스 (Code Generation Process) – 프로젝트 수준의 코드 컨텍스트를 자동으로 추출하여 현실적인 AI 프로그래밍 시나리오를 정확하게 시뮬레이션합니다.
코드 보안 평가 (Code Security Evaluation) – 정적 분석 (static analysis)과 동적 분석 (dynamic analysis)을 결합한 하이브리드 평가 스위트를 통합하여, 탐지 범위와 검증 정밀도의 균형을 맞춤으로써 보안 평가의 과학적 엄밀성과 실무적 가치를 높입니다.

우리는 **A.S.E (AICGSecEval)**를 개방적이고, 재현 가능하며, 지속적으로 진화하는 커뮤니티 프로젝트로 구축하는 데 전념하고 있습니다. 데이터셋을 확장하고 평가 프레임워크를 개선할 수 있도록 Star, Fork, Issue, 또는 Pull Request를 통해 기여해 주시기 바랍니다. 여러분의 관심과 기여는 A.S.E의 성장을 도와 AI 생성 코드 보안 분야의 산업적 도입과 학술 연구를 모두 발전시킬 것입니다.

✨ A.S.E 프레임워크 설계
🧱 2.0 주요 업그레이드
🚀 빠른 시작 (Quick Start)
📖 인용 (Citation)
🤝 기여 가이드
🙏 감사 인사
📱 커뮤니티 참여
📄 라이선스 (License)

1️⃣ 데이터셋 업그레이드 – 코드 생성 취약점 시나리오의 더 넓은 범위 커버리지

OWASP Top 10 및 CWE Top 25의 주요 리스크를 포함하며, C/C++, PHP, Java, Python, JavaScript와 같은 주요 프로그래밍 언어에 걸쳐 29가지 CWE 취약점 유형을 다룹니다.

2️⃣ 평가 대상 업그레이드 – 에이전트 기반 프로그래밍 도구 (Agentic Programming Tools) 지원

실제 AI 프로그래밍 시나리오를 더 잘 반영할 수 있도록 평가 차원을 확장합니다.

3️⃣ 코드 평가 업그레이드 – 정적 및 동적 하이브리드 평가

테스트 케이스(test cases)와 취약점 PoC(Proof of Concept)를 기반으로 한 동적 평가 체계를 도입하여, 탐지 범위(detection breadth)와 검증 정밀도(verification precision) 사이의 균형을 맞춘 하이브리드 평가 프레임워크를 형성하며, 이를 통해 평가 프로세스의 과학적 엄밀성과 실무적 가치를 크게 향상시킵니다.

시스템 요구 사항 (System Requirements)

메모리 (Memory)	디스크 공간 (Disk Space)	Python	Docker
권장 ≥16GB	≥100GB	≥3.11	≥27

1. Python 의존성 설치 (Install Python Dependencies)

pip install -r requirements.txt

2. 단일 명령어로 평가 실행 (Run Evaluation with One Command)

# 기본 사용법 (Basic Usage)
python3 invoke.py [options...] {--llm | --agent} [llm_options... | agent_options...]
# 사용 가능한 모든 옵션 보기 (View all available options)
...

참고 사항 (Notes)

1️⃣ 전체 평가에는 하드웨어 사양에 따라 오랜 시간이 걸릴 수 있습니다. --max_workers를 조정하여 병렬 처리(concurrency)를 높이고 총 실행 시간을 단축할 수 있습니다.

2️⃣ 이 도구는 자동 체크포인트 복구(automatic checkpoint recovery)를 지원합니다. 실행이 중단된 경우, 명령어를 다시 실행하기만 하면 마지막 상태에서 재개됩니다.

귀하의 연구에서 A.S.E를 사용하거나 그 평가 결과를 참조하는 경우, 다음과 같이 인용해 주세요:

@misc{lian2025aserepositorylevelbenchmarkevaluating,
title={A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code},
author={Keke Lian and Bin Wang and Lei Zhang and Libo Chen and Junjie Wang and Ziming Zhao and Yujiu Yang and Miaoqian Lin and Haotong Duan and Haoran Zhao and Shuang Liao and Mingda Guo and Jiazheng Quan and Yilu Zhong and Chenhao He and Zichuan Chen and Jie Wu and Haoling Li and Zhaoxuan Li and Jiongchi Yu and Hui Li and Dong Zhang},
...

A.S.E는 AI 생성 코드의 보안성을 평가하기 위한 개방적이고, 재현 가능하며, 지속적으로 진화하는 생태계를 구축하는 것을 목표로 합니다.
저희는 학계, 산업계 및 오픈 소스 커뮤니티의 개발자와 연구자들이 이 프로젝트에 협력하고 기여하는 것을 환영합니다.

🧠
데이터셋 기여 (Dataset Contribution): 실제 취약점 샘플을 확장하고, SAST(정적 분석 보안 테스트) 도구/규칙을 풍부하게 하며, 코드 기능 테스트 케이스 및 취약점 PoC(Proof of Concept)를 제공합니다. - ⚙️
프레임워크 최적화 (Framework Optimization): 코드 생성 로직, 평가 지표(evaluation metrics) 및 컨텍스트 추출 전략을 개선하며, Agent 통합 및 코드 리팩터링(code refactoring)을 지원합니다. - 💡
토론 및 제안 (Discussions & Suggestions): 새로운 아이디어를 제안하거나, 평가 전략을 공동 개발하거나, 모범 사례(best practices)를 공유합니다.

💬 위 사항 외에도 실제 사용 사례(use cases) 기여, 피드백 제공, 문서 개선 또는 커뮤니티 토론 참여를 포함한 모든 형태의 참여와 지원을 환영합니다.

📌 기여를 계획하고 계신다면, 데이터 형식, 제출 프로세스 및 검증 표준을 이해하기 위해 다음 가이드를 먼저 읽어주시기 바랍니다.

📘 데이터셋 기여 가이드 (Dataset Contribution Guide)
📘 Agent 통합 가이드 (Agent Integration Guide)
💭 이슈 또는 제안 보고: Issues를 통해
💡 브레인스토밍 및 토론: Discussions 참여

여러분의 참여와 기여는 A.S.E가 더 빠르게 진화하고, 범위를 확장하며, AI 생성 코드 보안 평가의 오픈 표준화를 발전시키는 데 도움이 될 것입니다.

A.S.E는 Tencent Security Platform Department와 다음과 같은 학술 파트너들이 협력하여 개발합니다:

푸단 대학교 (Fudan University, System Software & Security Lab)
베이징 대학교 (Peking University, Prof. Hui Li's Team)
상하이 교통 대학교 (Shanghai Jiao Tong University, Institute of Network and System Security)
칭화 대학교 (Tsinghua University, Prof. Yujiu Yang's Team)
저장 대학교 (Zhejiang University, Asst. Prof. Ziming Zhao's Team)

이 프로젝트에 대한 이들의 귀중한 기여에 진심으로 감사드립니다.

🙌 기여자 (Contributors)

AI 인프라 보안에 관심이 있다면, Tencent Zhuque Lab에서 개발한 포괄적이고 지능적이며 사용하기 쉬운 AI 레드팀(Red Teaming) 플랫폼인 A.I.G (AI-Infra-Guard)를 참고하십시오.

이 프로젝트는 Apache-2.0 라이선스 하에 오픈 소스로 제공됩니다. 자세한 내용은 License.txt 파일을 참조하십시오.

Insights

Tencent/AICGSecEval: 리포지토리 수준의 AI 생성 코드 보안 평가 프레임워크

요약

핵심 포인트

🚀 Tencent Wukong Code Security Team이 개발한 리포지토리 수준의 AI 생성 코드 보안 평가 프레임워크

댓글

당신의 AI는 모든 것을 잊어버립니다. Cognee가 이를 해결하는 방법

AI로 e-Stat 분석을 100배 빠르게 하면서 깨달았다. 데이터 분석은 '안심할 수 있는 직업'이 아니었다

MVP에서 확장까지: 스타트업용 vs 엔터프라이즈용 AI API에 대한 나의 견해

『Under the Hood UI Design』를 읽고 404 페이지와 마주한 이야기

AI로 e-Stat 분석을 100배 빠르게 하면서 깨달았다. 데이터 분석은 '안심할 수 있는 직업'이 아니었다

MVP에서 확장까지: 스타트업용 vs 엔터프라이즈용 AI API에 대한 나의 견해

『Under the Hood UI Design』를 읽고 404 페이지와 마주한 이야기