arXiv논문2026. 06. 19. 10:33

대규모 언어 모델(LLMs)을 활용한 저장소 수준의 Solidity 코드 생성: 프롬프팅에서 미세 조정(Fine-Tuning)까지

요약

Solidity 스마트 컨트랙트의 저장소 수준 코드 생성을 위한 새로운 벤치마크인 SolidityBench와 평가 지표인 SolidityScore를 제안합니다. 다양한 LLM을 대상으로 프롬프팅부터 미세 조정까지의 성능을 비교 분석하여, 지도 미세 조정이 도메인 특화 코드 생성에 가장 효과적임을 입증했습니다.

핵심 포인트

저장소 수준 Solidity 생성을 위한 벤치마크 SolidityBench 공개
도메인 구조를 반영한 새로운 평가 지표 SolidityScore 제안
RAG 방식이 비매개변수적 방법 중 가장 우수한 성능 기록
지도 미세 조정(SFT)이 Solidity 제약 조건 내재화에 가장 효과적

대규모 언어 모델(LLMs)은 범용 코드 생성 분야에서 강력한 능력을 보여주었으나, 특화된 소프트웨어 도메인에서의 효과는 여전히 충분히 탐구되지 않았습니다. Solidity 스마트 컨트랙트는 생성된 코드가 엄격한 언어 수준, 보안 및 소프트웨어 공학적 제약 조건을 충족해야 하는 고위험 도메인을 나타냅니다. 기존의 벤치마크와 지표들은 모델이 자연어 요구 사항으로부터 완전한 컨트랙트를 합성해야 하는 저장소 수준(repository-level)의 Solidity 생성에는 여전히 불충분합니다. 이러한 격차를 해소하기 위해, 우리는 자연어 설명과 쌍을 이루는 5,470개의 저장소 수준 Solidity 스마트 컨트랙트로 구성된 벤치마크인 SolidityBench를 소개합니다. 또한 우리는 보안 수정자(security modifiers), 컨트랙트 선언(contract declarations), 그리고 Solidity 특유의 키워드와 같은 도메인 핵심 구조를 강조하는 Solidity 인식 의미론적 지표(Solidity-aware semantic metric)인 SolidityScore를 제안합니다. 이 벤치마크를 사용하여, 우리는 Qwen2.5-Coder, DeepSeek-Coder, CodeLlama를 포함한 대표적인 코드 LLM들을 제로샷 프롬프팅(zero-shot prompting), 사고 사슬(Chain-of-Thought) 추론, 인컨텍스트 학습(in-context learning), 검색 증강 생성(retrieval-augmented generation), 그리고 지도 미세 조정(supervised fine-tuning)을 통해 평가합니다. 결과에 따르면 범용 모델들은 저장소 수준의 Solidity 생성에서 체계적인 구조적 결함을 보입니다. 비매개변수적 방법(non-parametric methods) 중에서는 검색 증강 생성(retrieval-augmented generation)이 가장 우수한 성능을 보였으며, 인컨텍스트 학습(in-context learning)은 컨텍스트 포화(context saturation)로 인해 예시가 두 개를 넘어가면 성능이 저하됩니다. 지도 미세 조정(supervised fine-tuning)은 Solidity 특유의 제약 조건을 모델 파라미터에 내재화함으로써 가장 큰 개선을 달성합니다. 종합적으로, 우리의 연구는 저장소 수준의 Solidity 코드 생성을 위한 포괄적인 벤치마크를 제공하며, 고품질 도메인 데이터와 지도 미세 조정의 결합이 LLM이 생성한 스마트 컨트랙트의 신뢰성을 향상시키는 가장 효과적인 전략임을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLMs)을 활용한 저장소 수준의 Solidity 코드 생성: 프롬프팅에서 미세 조정(Fine-Tuning)까지

요약

핵심 포인트

댓글