arXiv논문2026. 06. 04. 11:46

StepPRM-RTL: 향상된 RTL 합성을 위한 단계별 프로세스 보상 가이드 기반 LLM 미세 조정

요약

StepPRM-RTL은 RTL 코드 생성의 정확성을 높이기 위해 단계별 프로세스 보상 모델링(PRM)과 RAFT를 결합한 새로운 프레임워크입니다. MCTS를 통해 고품질 추론 궤적을 생성하며, 기존 방식 대비 기능적 정확도와 추론 충실도를 10% 이상 향상시켰습니다.

핵심 포인트

단계별 궤적 모델링과 PRM을 통한 정밀한 피드백 제공
MCTS를 활용한 고품질 학습 데이터셋 구축
Verilog 및 VHDL 벤치마크에서 기존 모델 대비 10% 성능 향상
긴 호흡의 추론과 하드웨어 설계 자동화 가능성 제시

디지털 하드웨어 설계를 위한 RTL 코드의 자동 생성은 긴 호흡의 추론 (long-horizon reasoning), 다단계 의존성 (multi-step dependencies), 그리고 Verilog 및 VHDL에서의 엄격한 정확성 제약 조건으로 인해 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 LLM 기반 RTL 코드 생성의 기능적 정확성 (functional correctness)과 추론 충실도 (reasoning fidelity)를 모두 향상시키기 위해 단계별 궤적 모델링 (stepwise trajectory modeling), 프로세스 보상 모델링 (Process-Reward Modeling, PRM), 그리고 검색 증강 미세 조정 (Retrieval-Augmented Fine-Tuning, RAFT)을 결합한 새로운 프레임워크인 StepPRM-RTL을 제시합니다. StepPRM-RTL은 표준 솔루션으로부터 단계별 추론 궤적을 구축하며, 각 단계는 근거 (rationale)와 점진적인 코드 수정 사항을 포함합니다. 프로세스 보상 모델 (Process Reward Model, PRM)은 중간 단계들을 평가하여, RAFT 미세 조정 과정 중 강화 학습 스타일의 업데이트를 가이드하는 조밀한 피드백 (dense feedback)을 제공합니다. 몬테카를로 트리 탐색 (Monte Carlo Tree Search, MCTS)은 대안적인 추론 경로를 탐색하여 고품질의 궤적으로 학습 데이터셋을 풍부하게 만듭니다. 이러한 단계별 보상과 결과 인지 보상 (outcome-aware rewards)의 통합은 모델이 올바른 RTL을 어떻게 그리고 왜 구축해야 하는지를 모두 학습할 수 있게 하여, 표준적인 지도 학습 (supervised learning) 또는 결과 기반 학습을 넘어선 긴 호흡의 추론 능력을 향상시킵니다. 벤치마크 Verilog 및 VHDL 데이터셋에 대한 실험적 평가 결과, StepPRM-RTL은 기능적 정확성 및 추론 충실도 지표에서 기존의 가장 우수한 방법들보다 10% 이상 뛰어난 성능을 보였습니다. 절제 연구 (Ablation studies)를 통해 PRM 가이드 보상과 단계별 궤적 탐색의 결합이 성능의 핵심임을 확인했습니다. StepPRM-RTL은 다양한 RTL 언어에 걸쳐 일반화가 가능하며, 고충실도 및 해석 가능한 코드 생성을 위한 확장 가능한 프레임워크를 제공하여 LLM 지원 하드웨어 설계 자동화의 새로운 표준을 정립합니다.

AI 자동 생성 콘텐츠

원문 바로가기

StepPRM-RTL: 향상된 RTL 합성을 위한 단계별 프로세스 보상 가이드 기반 LLM 미세 조정

요약

핵심 포인트

댓글