Anthropic의 새로운 보고서, 일반적인 LLM이 스마트 컨트랙트를 해킹할 수 있음을 보여줌

Anthropic의 새로운 보고서는 일반적인 LLM(Large Language Models)이 스마트 컨트랙트(smart contracts)를 해킹할 수 있음을 보여줍니다.

주요 모델들(Opus 4.5, Sonnet 4.5, GPT-5)은 이전에 본 적 없는 실제 2025년 취약점들을 발견하고 악용했으며 — 시뮬레이션 공격을 통해 460만 달러를 탈취했으며 — 올해 발생한 가장 큰 해킹 사건들에 대해 55% 이상의 성공률을 기록했습니다.

여러분이 알아야 할 내용은 다음과 같습니다👇

~~ @kenzimori 의 분석 ~~

최근 Anthropic은 AI 기반 사이버 공격을 식별하고 조사하기 위해 다각적인 노력을 기울여 왔습니다.

그들은 최초의 AI 주도 사이버 스파이 작전이라고 믿는 사례에 대한 보고서를 발표했는데, 여기에는 중국 국가 연계 그룹이 Claude를 탈옥(jailbreak)하여 최소한의 인간 개입만으로 대규모 스파이 작전의 대부분을 수행한 방식이 요약되어 있습니다. 올해 초, 그들은 Carnegie Mellon과 함께 AI가 사이버 공격을 수행하는 과정을 어떻게 단순화할 수 있는지 보여주는 보고서를 발표했습니다. 그 메시지는 이러한 도구들이 "악의적인" 작업들을 성공시키기에 충분한 장비와 높은 능력을 갖추고 있다는 것이었습니다.

이러한 조사를 이어가며, 그들은 스마트 컨트랙트 악용(smart contract exploits)으로 눈을 돌려, SCONE-bench(Smart CONtract Exploitation benchmark, 취약점 평가 및 시뮬레이션을 위해 Fellows가 구축한 벤치마크)를 사용하여 두 그룹의 악용된 컨트랙트에 대해 인기 있는 모델들을 실행했습니다:

➢ 2020년부터 2025년 3월 사이에 악용된 405개의 컨트랙트 (이 모델들의 마지막 지식 학습 시점이었기에 이 시점을 차단 지점으로 선택함)

➢ 2025년 3월 1일 이후에 악용된 34개의 컨트랙트 (이는 LLM이 발생한 상황을 이해하는 데 도움이 될 수 있는 사후 분석 문서들을 학습하지 않았음을 의미함)

DeFiHackLabs 저장소의 악용 사례들로 구성된 SCONE-bench는 테스트 세트이자 테스트 환경의 역할을 수행했습니다. 각 모델은 원래 악용이 발생했던 정확한 블록 시점의 체인을 로컬로 포크(fork)한 복제본에서 테스트되었으며, 이후 해당 모델이 컨트랙트를 다시 해킹할 수 있는지 확인하기 위해 실행되었습니다.

전체 405개의 컨트랙트 중 테스트에 참여한 10개의 모델은 총 207개(약 51%)를 공동으로 악용하였으며, 그 결과 시뮬레이션상 5억 5,010만 달러($550.1M)의 수익을 거두었습니다. 하지만 주의할 점은, 이 컨트랙트들은 2025년 3월 이전에 악용된 것들이라는 점입니다. 즉, 모델들이 학습 데이터(training data)를 통해 사후 분석 보고서(post-mortems)에 접근했을 가능성이 높다는 의미입니다.

인상적이거나 — 혹은 누구의 입장이냐에 따라 우려스러운 — 점은 2025년 3월 이후의 성능입니다. Opus 4.5, Sonnet 4.5, 그리고 GPT-5는 2025년 3월 이후에 악용된 34개의 컨트랙트 중 19개(55.8%)를 뚫어냈습니다. 이는 모델들이 사후 분석 보고서에 접근할 수 없는 상태에서 처음부터 스스로 문제를 해결했음을 의미합니다. 이 중 17개는 Opus 4.5 혼자서 해낸 것입니다.

이 궤적을 관점에서 비교해 보자면, 1년 전만 해도 AI 에이전트들은 이 벤치마크의 동일한 '컷오프(cutoff) 이후' 구간에서 취약점의 약 2%만을 악용할 수 있었습니다. 하지만 이제는 55.8%에 도달했습니다. 보고서는 악용 수익이 약 1.3개월마다 두 배씩 증가하고 있다고 추정합니다.

해킹의 진전 (Hacking Forward)

Anthropic은 사후 분석에만 머물지 않았습니다. 이 모델들이 진정으로 새로운 취약점을 찾아낼 수 있는지 테스트하기 위해, 알려진 취약점이 없는 최근 배포된 2,849개의 컨트랙트를 대상으로 Sonnet 4.5와 GPT-5를 모두 투입했습니다. 두 에이전트 모두 시뮬레이션 수익 기준 3,694달러의 가치가 있는 두 개의 새로운 제로 데이(zero-day) 취약점을 발견했습니다. 2,849개의 컨트랙트를 모두 스캔하는 데 든 GPT-5의 총 API 비용은 얼마였을까요? 단 3,476달러였습니다. 즉, 컨트랙트 스캔당 평균 1.22달러라는 비용으로, 자율적 악용(autonomous exploitation)은 이제 사실상 손익분기점에 도달했습니다. 보고서의 표현을 빌리자면, 이는 "수익성이 있는 실제 환경의 자율적 악용이 기술적으로 가능하다는 개념 증명(proof-of-concept)"을 보여줍니다.

Anthropic은 공격 기술은 자동화되고 정확해지는 반면, 방어 능력은 같은 속도로 확장되지 못하고 있다는 점을 강조하고 있습니다. 왜 그럴까요? 이러한 도구들을 사용할 의사가 있는 공격자들에게 악용을 통한 수익 가능성이 매력적인 보상으로 작용하는 경제적 인센티브의 불균형 때문입니다.

스마트 컨트랙트를 악용하는 데 효과적인 에이전트들의 능력, 즉 장기적 추론(long-horizon reasoning), 경계 분석(boundary analysis), 반복적인 도구 사용(iterative tool use)은 모든 종류의 소프트웨어로 확장됩니다. AI 비용이 하락하고 역량이 복합적으로 증가함에 따라, 취약한 계약 배포와 악용 사이의 간격은 계속해서 줄어들 것입니다. 스마트 컨트랙트 같은 오픈 소스 코드베이스가 이러한 자동화된 검토 물결을 가장 먼저 겪을 수 있지만, 독점 소프트웨어 역시 오랫동안 연구되지 않은 상태로 남아있기는 어려울 것입니다.

마무리하며

하지만 여기에는 희망적인 면도 있습니다. 취약점을 악용할 수 있는 에이전트들이 그것들을 패치하는 데에도 배치될 수 있기 때문입니다. @Nethermind는 AuditAgent를 통해 이를 탐구해 왔습니다. 이는 인간 검토자 옆에서 '페어 감사자(pair auditor)'로서 워크플로우에 통합된 AI 감사 도구입니다. 9월 기준으로, 29개 감사 프로젝트 전반에 걸쳐 AuditAgent는 프로젝트의 62%에서 유효한 문제를 감지했으며, 감사자들이 식별한 모든 발견 사항 중 30%를 플래그 지정했습니다. 특히 심각도 'Critical'(42%) 및 'High'(43%) 취약점 탐지율이 매우 높았습니다.

하지만 Anthropic이 언급했듯이, 방어는 악용만큼 직접적인 '수익'을 가져오지는 않습니다. 성공하는 공격자는 훔친 자금과 함께 떠나지만, 성공하는 방어자는 단순히 손실을 막을 뿐입니다. 이러한 인센티브 격차가 해소될 때까지는 공세가 방어보다 더 빠르게 확장될 것입니다.

Anthropic의 희망이자 저의 희망은 이 보고서와 같은 자료들이 방어자들의 정신 모델(mental models)을 현실에 맞게 업데이트하는 데 도움이 되고, 계약을 방어하기 위해 바운티나 모니터링을 넘어선 시스템 설계에 더욱 집중적인 노력이 이루어지는 것입니다. 정확히 어떤 모습일지는 모르겠지만, 온체인 AI가 관련될 것이라고 약속할 수 있습니다.
[image: https://pbs.twimg.com/media/HK5Aa8ZWoAAfpMn.png

Anthropic의 새로운 보고서, 일반적인 LLM이 스마트 컨트랙트를 해킹할 수 있음을 보여줌

요약

핵심 포인트

댓글