N-Day-Bench

N-Day-Bench 는 프론티어 언어 모델들이 지식 컷오프 날짜 이후 공개된 실제 세계의 취약점 또는 'N-Days'를 발견하는 능력을 측정합니다. 모든 모델은 동일한 테스트 환경 (harness) 과 동일한 컨텍스트가 제공되며, 보상 해킹을 위한 여지는 없습니다.

이 벤치마크는 대형 언어 모델 (LLMs) 의 실제 사이버 보안 능력을, 구체적으로는 "취약점 발견" 능력을 측정하기 위해 존재합니다.

이벤치마크는 적응형입니다: 테스트 케이스는 월 단위로 업데이트되고, 모델 세트는 최신 버전 및 체크포인트로 업그레이드됩니다.