arXiv논문2026. 06. 16. 11:52

피드백 기반 다회차 정교화를 통한 이진 디컴파일 LLM

요약

본 논문은 강화학습을 활용하여 피드백 기반의 다회차 이진 디컴파일을 수행하는 AutoDecompiler를 제안합니다. 단회차 생성의 한계를 극복하기 위해 컴파일 및 실행 피드백을 바탕으로 코드를 반복적으로 정교화하며, 동작 재실행 가능성을 크게 향상시켰습니다.

핵심 포인트

강화학습 기반의 디컴파일 특화 LLM AutoDecompiler 제안
단회차 생성을 넘어 컴파일/실행 피드백을 활용한 반복적 정교화 방식 도입
코드 유효성 및 의미론적 충실도를 위한 특화된 보상 체계 설계
기존 단회차 모델 대비 동작 재실행 가능성 및 정확도 개선 입증

이진 디컴파일 (Binary decompilation)은 취약점 발견, 악성코드 조사, 실행 파일 전용 프로그램 이해와 같은 보안 작업의 핵심입니다. 최근 LLM 기반의 디컴파일 방법론들이 유망한 결과를 보여주고 있으나, 대부분은 여전히 단회차 생성 (single-turn generation) 패러다임을 따르고 있습니다. 즉, 어셈블리 코드나 디컴파일러가 생성한 의사 코드 (pseudo-code)가 주어지면 모델이 하나의 출력을 생성하고 종료됩니다. 결과적으로 생성된 코드가 읽기 쉬워 보이거나 심지어 컴파일에 성공하더라도, 여전히 원래 바이너리의 동작과 다를 수 있으며 후속 분석을 오도할 수 있습니다. 본 논문에서는 피드백 기반의 다회차 (multi-turn) 이진 디컴파일을 위해 강화학습 (reinforcement learning)으로 학습된 디컴파일 특화 LLM인 AutoDecompiler를 제시합니다. AutoDecompiler는 디컴파일을 일회성 코드 생성으로 취급하는 대신, 모델이 컴파일, 실행, 그리고 입출력 테스트 피드백을 바탕으로 생성된 코드를 수정하는 반복적 정교화 (iterative refinement) 과정으로 공식화합니다. 이 과정을 가능하게 하기 위해, 우리는 코드 유효성, 재컴파일 가능성, 실행 일관성 및 의미론적 충실도 (semantic fidelity)를 포착하는 디컴파일 특화 보상 (rewards)을 설계합니다. 나아가 컴파일러 오류, 실행 실패 및 테스트 케이스 실패로부터 단계 인식 진단 피드백 (stage-aware diagnostic feedback)을 구축하고, 유익한 수정을 장려하면서 퇴보를 억제하기 위해 진행 상황 인식 궤적 보상 (progress-aware trajectory rewarding) 및 회차 인식 이점 재가중 (turn-aware advantage reweighting)을 도입합니다. 우리는 AutoDecompiler 제품군을 학습시키고 다양한 입력 설정, 모델 규모 및 벤치마크를 통해 평가합니다. 실험 결과, AutoDecompiler는 동일한 모델 크기와 입력 설정 하에서 단회차 모델들을 지속적으로 능가하며, 동작 재실행 가능성 (behavioral re-executability) 측면에서 명확한 개선을 달성했습니다. 이러한 결과는 강화학습을 통해 프로그램 피드백을 활용하는 법을 배우는 것이 LLM 기반 이진 디컴파일의 기능적 정확성을 향상시키는 효과적인 방향임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

피드백 기반 다회차 정교화를 통한 이진 디컴파일 LLM

요약

핵심 포인트

댓글