본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 22:36

ASSEMBLAGE-DEEPHISTORY: 시간적 범위를 포함한 교차 빌드 바이너리 데이터셋

요약

ASSEMBLAGE-DEEPHISTORY는 시간적 이력, 교차 빌드 다양성, CVE 레이블을 통합한 새로운 바이너리 데이터셋 프레임워크를 제안합니다. 248개 오픈 소스 프로젝트의 73,610개 바이너리를 포함하며, LLM의 바이너리 취약성 추론 능력과 임베딩 클러스터링 성능을 검증합니다.

핵심 포인트

  • 컴파일 컨텍스트와 소스 코드, CVE를 통합한 메타데이터 프레임워크 제시
  • 다양한 컴파일러(GCC, Clang, MSVC)와 최적화 수준을 포함한 대규모 데이터셋
  • LLM의 바이너리 취약성 추론 및 패턴 매칭 능력 검증을 위한 벤치마크 수행
  • 임베딩 공간에서의 패키지 버전 클러스터링 및 유사성 분석 수행

기존의 바이너리 코퍼스(binary corpora)는 일반적으로 바이너리 변이의 한두 가지 축만을 포착합니다. 즉, 시간적 축이 없는 교차 컴파일러 빌드(cross-compiler builds)를 제공하거나, 단일 빌드 바이너리에 대한 CVE 레이블만을 제공합니다. 교차 빌드 다양성, 교차 버전 이력, 그리고 CVE 레이블을 쿼리 가능한 구조로 결합한 사례는 없습니다. 본 논문에서는 모든 바이너리의 컴파일 컨텍스트(compilation context), 소스 코드, 취약한 함수(vulnerable functions), 그리고 패키지 버전이 일급 메타데이터(first-class metadata)로 저장되는 통합 프레임워크인 ASSEMBLAGE-DEEPHISTORY를 제시합니다. ASSEMBLAGE-DEEPHISTORY는 248개의 오픈 소스 프로젝트에 걸친 73,610개의 바이너리로 구성되어 있으며, Linux 및 Windows 환경에서 GCC, Clang, MSVC를 통해 다양한 최적화 수준으로 컴파일된 다년간의 역사적 빌드(historical builds)를 포함합니다. 각 바이너리는 소스 코드, 함수, 디버그 정보, 변형 빌드(variant builds), 역사적 버전, 그리고 취약한 함수와 연결되는 데이터베이스에 인덱싱됩니다. 세 가지 분석을 통해 이 구조의 가치를 입증합니다: (1) LLM이 바이너리 취약성에 대해 추론하는지, 아니면 빌드별 아티팩트(build-specific artifacts)에 대해 패턴 매칭을 수행하는지 테스트하기 위한 3단계 LLM 벤치마크(인식, 전략 가이드 탐지, 그리고 교차 빌드 전이); (2) MalConv 임베딩(embeddings), jTrans 함수 임베딩, 그리고 TLSH 퍼지 해시(fuzzy hashes)를 비교하여 동일 패키지 버전이 각 공간에서 어떻게 클러스터링되는지 정량화; (3) 바이너리 유사성을 시간적 거리, 파일 변경, 그리고 커밋(commits)의 기여도로 분해하는 베이지안 회귀(Bayesian regression).

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0