HuggingFace에 사이버 보안에 특화된 Mythos 스타일의 오픈 웨이트(open weights) LLM을 학습시켜 공개했습니다
요약
사이버 보안 작업에 특화된 오픈 웨이트 LLM인 OpenMythos를 공개했습니다. RLVR(검증 가능한 보상을 통한 강화 학습) 기법을 활용하여 보안 취약점 식별 및 코드 수정의 정확도를 높였습니다.
핵심 포인트
- 보안 도메인 특화 모델 OpenMythos 공개
- RLVR을 통한 모델의 자기 검증 및 정밀도 향상
- ArXiv 논문 및 CVE 데이터셋 기반의 고품질 학습
- 취약점 식별 및 완화 전략 수행 능력 강화
저희는 Build Small Hackathon을 위해 사이버 보안 작업에 특화되어 학습된 오픈 소스 LLM인 OpenMythos를 구축했습니다. RLVR (Reinforcement Learning from Verifiable Rewards) 설정이 까다로웠기에, 유사한 도메인 특화 미세 조정 (fine-tuning)을 진행하는 분들에게 도움이 될 수 있도록 저희의 학습 접근 방식을 공유하고자 합니다.
문제점
범용 LLM (General-purpose LLMs)은 보안 분야에서 놀라울 정도로 성능이 떨어집니다. CVE 세부 정보를 환각 (hallucinate)하거나, 코드 내의 실제 취약점 패턴을 놓치며, 중요한 부분에서 틀리면서도 자신감 있게 말하곤 합니다. 저희는 보안 도메인의 깊이가 실제로 내재된 모델을 원했습니다.
데이터
- 10K개의 ArXiv cs.CR 논문을 스크래핑하여 → 코딩 취약점에 집중된 약 1.84K개의 고품질 레코드로 필터링
- 실제 영향을 받는 코드와 해결(remediation) 컨텍스트가 포함된 구조화된 CVE 데이터셋
- 두 데이터셋 모두 Hugging Face에 공개되어 있습니다 (모든 링크는 이 게시물 끝에 있음)
학습 파이프라인
1단계 - SFT (Supervised Fine-Tuning): 취약점 식별, CVE 설명, 보안 이슈에 대한 코드 리뷰, 완화 전략(mitigation strategies) 등 사이버 보안 작업에 대한 표준 지도 미세 조정.
2단계 - RLVR: 이 부분이 흥미로웠던 지점입니다. SFT는 모델이 좋은 응답을 모방하도록 가르치지만, 모델 스스로 자신의 출력을 검증하게 만들지는 못합니다. 보안 분야에서 이러한 격차는 위험합니다.
저희는 취약점이 있는 브랜치와 수정된 브랜치가 쌍으로 구성된 GitHub 리포지토리를 사용하여 보상 (reward) 설정을 구축했습니다. 검증 모델 (verifier model)은 생성된 각 응답을 정답(ground truth)과 대조하여 확인합니다: 올바른 취약점을 식별했는가? 수정 사항이 실제로 정확한가? 보상 신호는 여기서부터 흐릅니다.
RLVR 이후 모델은 눈에 띄게 더 정밀해졌습니다. 유사한 취약점 클래스를 혼동하는 일이 줄어들었고, 불확실성에 대한 보정 (calibration) 능력이 향상되었습니다.
링크
🤖 데모 (Demo): https://huggingface.co/spaces/build-small-hackathon/OpenMythos
🧠 모델 (Model): https://huggingface.co/build-small-hackathon/OpenMythos
📦 CVE 데이터셋 (CVE Dataset): https://huggingface.co/datasets/build-small-hackathon/CVE_Vulnerailities_Detailed
📄 ArXiv 필터링 데이터 (ArXiv Filtered): https://huggingface.co/datasets/himanshu17HF/ArvixImport-Filtered-Final
관심 있는 분이 계시다면 RLVR 설정이나 필터링 파이프라인에 대해 더 자세히 설명해 드릴 수 있습니다.
또한 저희는 모델이 부족한 부분이 어디인지에 대한 피드백을 기다리고 있습니다.
submitted by /u/RealKingNish to r/LocalLLaMA
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기