파라미터를 넘어선 지식: 스마트 컨트랙트 취약점 탐지의 진화

스마트 컨트랙트(Smart contract) 취약점은 주로 로직 버그(logic bugs)이며, 이를 탐지하기 위해서는 공격 패턴과 컨트랙트 의미론(semantics)에 대한 구조적이고 단계적인 절차적 지식(procedural knowledge)이 필요합니다. 기존의 LLM 기반 방식들은 이러한 지식을 자동으로 생성하는 데 어려움을 겪고 있습니다. 프롬프트 기반(prompt-based) 방식은 수동으로 제작된 탐지 규칙에 의존하며, 미세 조정(fine-tuning) 방식은 이 분야에서 본질적으로 부족한 대규모 레이블링 데이터셋을 필요로 합니다. 우리는 취약점 탐지를 절차적 지식 진화 문제로 재정의하여, 최소한의 레이블링된 샘플만을 사용하여 탐지 로직을 합성하고 정제하는 자동화된 프레임워크인 EvoVuln을 제시합니다. 이를 달성하기 위해 EvoVuln은 두 가지 핵심 메커니즘을 도입합니다. 첫째, 제어 역전(Inversion of Control, IoC) 아키텍처를 갖춘 런타임(Runtime)이 탐지 규칙을 실행 가능한 정책(Executable Policies)으로 컴파일합니다. 이는 결정론적 제어 흐름(deterministic control flow)을 LLM의 의미론적 추론(semantic reasoning)으로부터 엄격하게 분리하여, 충실한 논리적 준수를 보장하고 정확한 오류 위치 파악(error localization)을 위한 조밀한 진단 텔레메트리(diagnostic telemetry)를 생성합니다. 둘째, 매개변수 업데이트 없이 가추적 의미론적 디버깅(abductive semantic debugging)을 통해 규칙을 정제하는 2단계 진화 파이프라인을 사용합니다. 콜드 스타트(Cold Start) 단계에서는 자동 합성된 코너 케이스(corner cases)를 사용하여 초기 규칙을 부트스트랩하고 스트레스 테스트를 수행하며, 퓨샷 진화(Few-Shot Evolving) 단계에서는 취약점 유형당 5개의 취약한 사례와 5개의 안전한 사례만을 사용하여 정책을 실제 세계의 의미론에 정착시킵니다. 5가지 실제 취약점 유형에 대해 평가한 결과, EvoVuln은 71%의 매크로 평균 F1-score를 달성하여 모든 베이스라인(baselines)을 능가했습니다. 진화된 절차적 지식은 모델 간에 이식 가능합니다. 이는 경량화된 저비용 모델이 훨씬 더 큰 제로샷(zero-shot) 모델보다 19%포인트 높은 성능을 낼 수 있게 하며, 재학습 없이 다른 LLM으로 전이될 수 있으며, 50달러 미만의 일회성 진화 비용이 소요됩니다.

Insights

파라미터를 넘어선 지식: 스마트 컨트랙트 취약점 탐지의 진화

요약

핵심 포인트

댓글

DemoPSD: 불일치 조절 정책 자기 증류 (Disagreement-Modulated Policy Self-Distillation)

LACUNA: LLM Unlearning의 국소화 정밀도 평가를 위한 테스트베드

아무도 지켜보지 않을 때 LLM 에이전트가 말하는 것: 멀티 에이전트 토론에서의 사회적 구조와 잠재적 목표의 출현

Program-as-Weights: 퍼지 함수(Fuzzy Functions)를 위한 프로그래밍 패러다임

DemoPSD: 불일치 조절 정책 자기 증류 (Disagreement-Modulated Policy Self-Distillation)

LACUNA: LLM Unlearning의 국소화 정밀도 평가를 위한 테스트베드

아무도 지켜보지 않을 때 LLM 에이전트가 말하는 것: 멀티 에이전트 토론에서의 사회적 구조와 잠재적 목표의 출현

Program-as-Weights: 퍼지 함수(Fuzzy Functions)를 위한 프로그래밍 패러다임