SmartEval: 자연어 명세로부터 생성된 LLM 기반 스마트 계약 평가를 위한 벤치마크

우리는 자연어 명세(Natural Language Specifications)로부터 대규모 언어 모델(LLMs)이 생성한 Solidity 스마트 계약(Smart Contracts)의 품질을 체계적으로 평가하기 위한 벤치마크인 SmartEval을 소개합니다. SmartEval은 FSMSCG 데이터셋에서 추출한 전문가 작성 정답 구현(Ground-truth implementations)과 쌍을 이루는 9,000개의 생성된 계약 코퍼스, 기능적 완전성(Functional completeness), 변수 충실도(Variable fidelity), 상태 머신 정확성(State-machine correctness), 비즈니스 로직 충실도(Business-logic fidelity), 코드 품질(Code quality)을 다루는 5차원 평가 루브릭(Evaluation rubric), 그리고 재현 가능한 생성 및 평가 파이프라인을 제공합니다. 벤치마크의 신뢰성을 검증하기 위해 우리는 세 가지 독립적인 실증 연구를 수행했습니다: 각 파이프라인 구성 요소의 기여도를 격리하여 분석한 5가지 조건의 어블레이션 연구(Ablation study, 조건당 N=300), 자동화된 점수가 전문가의 판단과 0.34점 이내로 일치함을 확인한 Columbia University 박사 과정 연구원 3인의 인간 전문가 평가, 그리고 LLM 감사자와 비(非) LLM 규칙 기반 도구 간의 79.4% 일치율을 확인한 Slither 정적 분석기(Static analyzer)를 통한 외부 보안 분석입니다. 9,000개의 생성된 계약에 대한 체계적인 분석 결과, 특징적인 실패 모드(로직 누락 35.3%, 상태 전이 오류 23.4%, 복잡도 기반 성능 저하)가 드러났으며, 생성된 계약이 정답 구현보다 +8.29점의 종합 점수 우위를 점한다는 점을 정량화했습니다. 이는 LLM의 문구 그대로 명세를 따르는(Literal specification-following) 동작에 기인합니다. SmartEval은 LLM 스마트 계약 합성 품질에 대한 실증적 연구를 위한 재현 가능하고 검증된 토대를 구축하며, 모든 데이터, 평가 코드 및 생성된 계약은 공개적으로 배포됩니다.

Insights

SmartEval: 자연어 명세로부터 생성된 LLM 기반 스마트 계약 평가를 위한 벤치마크

요약

핵심 포인트

댓글

Equifax, 7억 5,000만 달러에 멕시코의 Círculo de Crédito 인수 예정

Vertex, 100억 달러 규모의 Crinetics 인수 계약 체결

Eni Storage Systems, 이탈리아 내 LFP 배터리 공장 건설 착수

Linea Energy, 미시간 태양광 프로젝트를 위한 세금 형평성 금융(Tax Equity Financing) 확보

Vertex, 100억 달러 규모의 Crinetics 인수 계약 체결

Eni Storage Systems, 이탈리아 내 LFP 배터리 공장 건설 착수

Linea Energy, 미시간 태양광 프로젝트를 위한 세금 형평성 금융(Tax Equity Financing) 확보