N-Day-Bench – LLMs 가 실제 코드베이스에서 진정한 취약점을 발견할 수 있는가?
요약
N-Day-Bench는 대형 언어 모델(LLMs)이 지식 컷오프 날짜 이후에 발견된 실제 세계의 취약점('N-Days')을 찾아내는 능력을 측정하는 새로운 벤치마크입니다. 이 테스트는 모든 모델에게 동일한 환경과 컨텍스트를 제공하며, 보상 해킹을 위한 여지를 두지 않아 LLMs의 진정한 사이버 보안 및 취약점 발견 역량을 객관적으로 평가합니다.
핵심 포인트
- N-Day-Bench는 LLM의 실제 취약점 발견 능력을 측정하는 데 초점을 맞춘 벤치마크입니다.
- 테스트는 지식 컷오프 이후에 공개된 'N-Days'와 같은 최신 실세계 취약점을 다룹니다.
- 모든 모델은 동일한 테스트 환경과 컨텍스트를 사용하며, 보상 해킹을 방지하여 공정한 평가가 이루어집니다.
- 이 벤치마크는 월 단위로 업데이트되며, 지속적으로 최신화되는 적응형(adaptive) 특성을 가집니다.
N-Day-Bench
N-Day-Bench 는 프론티어 언어 모델들이 지식 컷오프 날짜 이후 공개된 실제 세계의 취약점 또는 'N-Days'를 발견하는 능력을 측정합니다. 모든 모델은 동일한 테스트 환경 (harness) 과 동일한 컨텍스트가 제공되며, 보상 해킹을 위한 여지는 없습니다.
이 벤치마크는 대형 언어 모델 (LLMs) 의 실제 사이버 보안 능력을, 구체적으로는 "취약점 발견" 능력을 측정하기 위해 존재합니다.
이벤치마크는 적응형입니다: 테스트 케이스는 월 단위로 업데이트되고, 모델 세트는 최신 버전 및 체크포인트로 업그레이드됩니다.
모든 흔적 (traces) 은 공개적으로 조회할 수 있습니다.
Winfunc Research 의 프로젝트
AI 자동 생성 콘텐츠
본 콘텐츠는 HN Claude Code Search의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기