본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 13:45

SmartEval: 자연어 명세로부터 생성된 LLM 기반 스마트 계약 평가를 위한 벤치마크

요약

SmartEval은 자연어 명세를 바탕으로 LLM이 생성한 Solidity 스마트 계약의 품질을 체계적으로 평가하기 위해 설계된 새로운 벤치마크입니다. 9,000개의 계약 코퍼스와 5차원 평가 루브릭을 제공하며, 전문가 평가 및 정적 분석 도구와의 비교를 통해 높은 신뢰성을 검증받았습니다. 연구 결과, LLM은 명세를 문자 그대로 따르는 특성 때문에 특정 실패 모드를 보이지만, 종합 점수에서는 정답 구현보다 높은 점수를 기록하기도 했습니다.

핵심 포인트

  • 9,000개의 생성된 계약 코퍼스와 전문가 작성 정답 구현을 포함한 데이터셋 제공
  • 기능적 완전성, 변수 충실도, 상태 머신 정확성 등 5가지 차원의 평가 루브릭 적용
  • 인간 전문가 및 Slither 정적 분석기를 통한 높은 평가 일치도 검증
  • LLM의 스마트 계약 생성 시 발생하는 주요 실패 모드(로직 누락, 상태 전이 오류 등) 규명
  • 재현 가능한 생성 및 평가 파이프라인과 모든 데이터의 공개 배포

우리는 자연어 명세(Natural Language Specifications)로부터 대규모 언어 모델(LLMs)이 생성한 Solidity 스마트 계약(Smart Contracts)의 품질을 체계적으로 평가하기 위한 벤치마크인 SmartEval을 소개합니다. SmartEval은 FSMSCG 데이터셋에서 추출한 전문가 작성 정답 구현(Ground-truth implementations)과 쌍을 이루는 9,000개의 생성된 계약 코퍼스, 기능적 완전성(Functional completeness), 변수 충실도(Variable fidelity), 상태 머신 정확성(State-machine correctness), 비즈니스 로직 충실도(Business-logic fidelity), 코드 품질(Code quality)을 다루는 5차원 평가 루브릭(Evaluation rubric), 그리고 재현 가능한 생성 및 평가 파이프라인을 제공합니다. 벤치마크의 신뢰성을 검증하기 위해 우리는 세 가지 독립적인 실증 연구를 수행했습니다: 각 파이프라인 구성 요소의 기여도를 격리하여 분석한 5가지 조건의 어블레이션 연구(Ablation study, 조건당 N=300), 자동화된 점수가 전문가의 판단과 0.34점 이내로 일치함을 확인한 Columbia University 박사 과정 연구원 3인의 인간 전문가 평가, 그리고 LLM 감사자와 비(非) LLM 규칙 기반 도구 간의 79.4% 일치율을 확인한 Slither 정적 분석기(Static analyzer)를 통한 외부 보안 분석입니다. 9,000개의 생성된 계약에 대한 체계적인 분석 결과, 특징적인 실패 모드(로직 누락 35.3%, 상태 전이 오류 23.4%, 복잡도 기반 성능 저하)가 드러났으며, 생성된 계약이 정답 구현보다 +8.29점의 종합 점수 우위를 점한다는 점을 정량화했습니다. 이는 LLM의 문구 그대로 명세를 따르는(Literal specification-following) 동작에 기인합니다. SmartEval은 LLM 스마트 계약 합성 품질에 대한 실증적 연구를 위한 재현 가능하고 검증된 토대를 구축하며, 모든 데이터, 평가 코드 및 생성된 계약은 공개적으로 배포됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.PL (Programming Languages)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0