SoK: AI 증강 바이너리 리버싱 (AI-Augmented Binary Reversing)
요약
본 논문은 AI를 활용한 바이너리 리버싱 분야의 연구를 체계화한 최초의 SoK(Systematization of Knowledge) 연구입니다. 2015년 이후 144편의 논문을 분석하여 통합된 분류 체계를 제시하고, LLM과 에이전트형 AI의 역할을 정의합니다.
핵심 포인트
- 2015년 이후 144편의 관련 연구 논문 분석
- 추론 작업에 따른 22개 바이너리 리버싱 도메인 분류
- 전통적 방식과 AI 증강 파이프라인을 아우르는 통합 분류 체계 도입
- LLM 및 에이전트형 AI의 부상과 향후 연구 방향 제시
바이너리 리버싱 (Binary reversing)은 소프트웨어 이해, 취약점 발견 (vulnerability discovery), 악성코드 조사 (malware investigation), 그리고 펌웨어 감사 (firmware auditing)에 있어 필수적입니다. 그러나 컴파일 과정에서 발생하는 의미 정보 (semantic information)의 비가역적인 손실로 인해 본질적으로 어려운 과제로 남아 있습니다. 최근 머신러닝 (machine learning), 대규모 언어 모델 (LLMs), 그리고 에이전트형 AI 시스템 (agentic AI systems)의 발전은 AI 증강 바이너리 리버싱 (AI-augmented binary reversing)의 도입을 가속화했습니다. 하지만 그 결과로 나타난 연구 결과물들은 리버싱 도메인, 아티팩트 표현 (artifact representations), 학습 접근 방식 (learning approaches), 그리고 평가 관행 (evaluation practices)에 따라 점점 더 파편화되고 있습니다. 본 논문은 AI 증강 바이너리 리버싱에 관한 최초의 포괄적인 지식 체계화 (systematization of knowledge)를 제시합니다. 우리는 2015년 이후 발표된 144편의 연구 논문을 분석하였으며, 이를 추론 작업 (inference tasks)에 따라 22개의 바이너리 리버싱 도메인으로 분류하였습니다. 나아가 우리는 전통적인 방식과 AI 증강 리버싱 파이프라인 (pipelines)을 아우르는 통합된 분류 체계 (taxonomy)를 도입합니다. 우리의 분류 체계는 전통적인 분석 기술, 바이너리 유래 아티팩트 (binary-derived artifacts), 표현 전략 (representation strategies), 학습 패러다임 (learning paradigms), 그리고 다운스트림 추론 작업 (downstream inference tasks)을 연결하는 동시에, LLMs와 에이전트형 AI 시스템의 새롭게 부상하는 역할을 명확히 합니다. 공통된 어휘와 구조화된 프레임워크를 구축함으로써, 우리는 지난 10년 동안 이 분야가 어떻게 진화해 왔는지에 대한 총체적인 관점을 제공합니다. 우리의 연구는 겉보기에 이질적인 접근 방식들 밑에 깔린 공통적인 구조를 드러내고, 지속적인 기술적 과제와 평가의 격차를 강조하며, 향후 연구를 위한 유망한 기회들을 식별합니다. 종합적으로, 이러한 통찰은 이 분야의 현재 상태를 명확히 하고 차세대 신뢰할 수 있고 확장 가능한 AI 증강 바이너리 리버싱 시스템을 위한 토대를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기