arXiv논문2026. 06. 15. 10:03

Android 앱의 난독화 탐지 및 분류를 위한 LLM 평가

요약

Android 앱의 코드 난독화를 탐지하기 위해 LLM의 의미론적 추론 능력을 평가한 연구입니다. 기존의 휴리스틱 방식 대신 다양한 LLM을 활용하여 난독화된 코드를 식별하는 성능을 벤치마크와 실제 데이터를 통해 검증했습니다.

핵심 포인트

LLM의 의미론적 추론을 통한 Android 난독화 탐지 가능성 조사
오픈 웨이트 및 독점 LLM의 프롬프트 설계 및 모델 성능 비교
기존 SAST 기반 탐지 방식과 LLM 기반 추론의 성능 비교 분석
실제 Android 앱 데이터셋을 활용한 실증적 평가 수행

Android 애플리케이션(앱) 개발자들은 리버스 엔지니어링(Reverse Engineering)을 방해하고 지적 재산을 보호하기 위해 코드 난독화(Code Obfuscation) 기술에 점점 더 의존하고 있습니다. 그러나 난독화는 정적 분석(Static Analysis) 및 취약점 탐지 도구의 효과를 감소시켜 Android 보안 분석에 어려움을 초래합니다. Android 앱에서 난독화를 탐지하기 위한 기존 방식들은 주로 수작업으로 제작된 휴리스틱(Heuristics), 설계된 특징(Engineered Features), 또는 특정 작업에 특화된 학습 파이프라인(Learning Pipelines)에 의존하며, 이는 진화하는 난독화 전략 전반에 걸쳐 일반화하는 데 어려움을 겪을 수 있습니다. 본 논문은 의미론적 추론(Semantic Reasoning)을 통해 Android 앱의 난독화를 탐지하는 대규모 언어 모델(LLMs)의 능력을 조사하는 대규모 실증적 연구를 제시합니다. 우리의 연구는 기성 LLMs가 수작업 규칙, 사전 정의된 시그니처(Signatures), 또는 전용 모델 학습에 의존하지 않고도 난독화된 코드를 식별할 수 있는지 평가합니다. 실증적 평가는 여러 기술로 난독화된 앱을 포함하는 통제된 벤치마크와 Google Play에서 수집된 실제 Android 앱 데이터셋 모두에서 수행되었습니다. 또한 본 연구는 여러 오픈 웨이트(Open-weight) 및 독점(Proprietary) LLMs에 걸쳐 프롬프트 설계(Prompt Design), 모델 선택, 그리고 결정 임계값(Decision Thresholds)의 영향을 조사합니다. 마지막으로, 분석을 통해 LLM 기반 추론을 기존의 SAST 기반 난독화 탐지 방식과 비교하고, Android 보안 분석에 LLMs를 적용할 때의 광범위한 시사점과 한계점을 논의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Android 앱의 난독화 탐지 및 분류를 위한 LLM 평가

요약

핵심 포인트

댓글