AI 에이전트 기반 스마트 컨트랙트 보안 평가 벤치마크, EVMbench 공개

요약

EVMbench는 AI 에이전트가 블록체인 환경의 취약점을 탐지(Detect), 패치(Patch), 악용(Exploit)하는 능력을 평가하기 위해 개발된 벤치마크입니다. 스마트 컨트랙트는 현재 $100B 이상의 오픈소스 암호화 자산을 보호하고 있어, AI 에이전트의 보안 감사 및 강화 역량 측정은 매우 중요합니다. EVMbench는 40개의 감사(audit)에서 가져온 117개의 고위험 취약점을 활용하며, GPT-5.3-Codex가 악용 모드(Exploit mode)에서 71.0%의 점수를 기록하는 등 모델 성능 향상을 보여주었으나

핵심 포인트

EVMbench는 AI 에이전트의 스마트 컨트랙트 취약점 탐지, 패치, 악용 능력을 측정하기 위해 개발된 벤치마크입니다.
해당 벤치마크는 Code4rena 감사 대회에서 가져온 117개의 고위험 취약점을 활용하며, Tempo 블록체인 기반의 결제 시나리오까지 포함합니다.
GPT-5.3-Codex 모델은 악용 모드(Exploit mode)에서 71.0%의 점수를 기록하여 이전 모델 대비 상당한 성능 향상을 입증했습니다.
평가 결과, 에이전트들이 취약점 탐지 및 패치 작업보다 명시적 목표를 가진 악용(Exploit) 환경에서 가장 높은 성능을 보였습니다.

스마트 컨트랙트는 현재 1,000억 달러($100B+) 이상의 오픈소스 암호화 자산을 보호하는 핵심 인프라입니다. AI 에이전트가 코드를 읽고, 작성하고, 실행하는 능력이 향상됨에 따라, 이러한 에이전트들이 경제적으로 의미 있는 환경에서 취약점을 감사하고 계약을 강화할 수 있는지 측정하는 것이 중요해졌습니다.

이에 OpenAI와 Paradigm은 AI 에이전트의 스마트 컨트랙트 취약점 탐지(Detect), 패치(Patch), 악용(Exploit) 능력을 평가하는 벤치마크, EVMbench를 공개했습니다. EVMbench는 총 40개의 감사 기록에서 선별된 117개의 고위험 스마트 컨트랙트 취약점을 기반으로 구축되었으며, 특히 Tempo 블록체인과 같은 실용적인 L1 환경의 결제 관련 시나리오까지 포함하여 그 중요성을 높였습니다.

EVMbench의 세 가지 평가 모드

EVMbench는 에이전트의 능력을 입체적으로 측정하기 위해 세 가지 핵심 모드를 정의합니다:

Detect (탐지): 에이전트가 스마트 컨트랙트 레포지토리를 감사하고, 실제 취약점(ground-truth vulnerabilities)을 얼마나 잘 찾아내는지에 대한 재현율(recall)과 감사 보상 점수로 평가됩니다.
Patch (패치): 에이전트가 취약한 계약 코드를 수정하여 악용 가능성을 제거하는 동시에, 원래 의도된 기능성(intended functionality)은 유지해야 합니다. 이는 자동화된 테스트와 악용 검사를 통해 검증됩니다.
Exploit (악용): 에이전트가 샌드박스 블록체인 환경에 배포된 컨트랙트를 대상으로 실제 자금 탈취 공격(fund-draining attacks)을 수행합니다. 평가는 트랜잭션 리플레이 및 온체인 검증을 통해 프로그램적으로 이루어집니다.

주요 평가 결과와 시사점

EVMbench를 활용하여 최신 AI 에이전트들을 테스트한 결과, 모델별 성능 차이가 명확하게 드러났습니다. 특히 '악용(Exploit)' 모드에서 GPT-5.3-Codex가 71.0%의 점수를 달성하며 이전 모델인 GPT-5(33.3%) 대비 상당한 성능 향상을 보여주었습니다.

그러나 탐지 및 패치 작업에서는 아직 완전한 커버리지를 달성하기 어렵다는 한계점도 발견되었습니다. 이는 여전히 많은 취약점이 에이전트가 찾고 고치는 데 어려움을 겪는 복잡성을 가지고 있음을 시사합니다. 또한, 에이전트들은 명확하고 구체적인 목표(예: 자금 탈취)가 주어지는 악용 환경에서 가장 높은 성능을 보였으며, 탐지나 패치와 같은 작업에서는 성능 저하를 보이기도 했습니다.

기술적 구현 및 한계점

객관적이고 재현 가능한 평가를 위해 Rust 기반의 하네스(harness)가 개발되었습니다. 이 하네스는 컨트랙트를 배포하고, 에이전트 트랜잭션을 결정론적으로 리플레이하며, 안전하지 않은 RPC 메서드를 제한합니다. 모든 취약점은 역사적이며 공개적으로 문서화된 내용을 사용했습니다.

다만, EVMbench는 실제 세계의 스마트 컨트랙트 보안 전체 난이도를 반영하지 못하는 구조적 한계도 존재합니다. 예를 들어, 트랜잭션 리플레이가 순차적으로 이루어지기 때문에 정밀한 타이밍 메커니즘에 의존하는 동작은 평가 범위에서 제외됩니다. 또한, 샌드박스 환경과 단일 체인만 지원하며, 에이전트의 성능 향상에도 불구하고 개발자와 보안 연구원들이 AI 기반 감사 워크플로우를 통합하는 것이 필수적임을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AI 에이전트 기반 스마트 컨트랙트 보안 평가 벤치마크, EVMbench 공개

요약

핵심 포인트

EVMbench의 세 가지 평가 모드

주요 평가 결과와 시사점

기술적 구현 및 한계점

댓글