StepPRM-RTL이 Verilog 및 VHDL 생성을 개선하기 위해 단계별 보상(Stepwise Rewards)을 사용하는 방법

대규모 언어 모델(Large Language Models, LLMs)은 이제 그럴듯해 보이는 많은 코드를 작성할 수 있습니다. 하지만 하드웨어 기술 언어(Hardware Description Languages, HDLs)는 더 어려운 테스트입니다. Verilog 및 VHDL에서는 리셋 조건(reset condition), 상태 전이(state transition), 또는 신호 할당(signal assignment)에서의 작은 실수 하나가 전체 설계의 시뮬레이션 실패를 초래할 수 있습니다. 이것이 바로 RTL 합성(RTL synthesis)에 관한 최신 연구가 흥미로운 이유입니다. 이 연구는 단순히 모델이 코드를 생성할 수 있는지 묻는 것이 아니라, 모델이 검증(verification)을 통과할 수 있는 방식으로 하드웨어 작업을 추론할 수 있는지를 묻습니다.

최근 논문인 StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis는 정확히 그러한 접근 방식을 취합니다. 최종 답변에만 점수를 매기는 대신, 답변에 이르는 단계들에 대해 모델에 피드백을 제공합니다. 실제로 이는 모델이 올바른 RTL이 어떻게 생겼는지뿐만 아니라, 한 번에 하나의 결정을 내리며 이를 어떻게 구축하는지를 학습한다는 것을 의미합니다.

RTL 생성이 까다로운 벤치마크인 이유

RTL 생성은 대상이 짧으면서도 매우 엄격하기 때문에 다른 많은 코드 생성 작업과는 다릅니다. 모델이 컴파일되는 코드를 작성하더라도 타이밍(timing)이 잘못되었거나, 상태 머신(state machine)이 불완전하거나, 신호가 잘못된 클록 에지(clock edge)에서 업데이트되는 등의 이유로 시뮬레이션에서 실패할 수 있습니다. 결과 중심의 피드백(Outcome-only feedback)은 유용하지만, 동시에 희소(sparse)합니다. 이는 설계가 통과했는지 여부만 알려줄 뿐, 어떤 중간 결정이 잘못되었는지는 알려주지 않습니다.

이것이 Verilog 생성에 관한 이전 연구들이 중요했던 이유입니다. VerilogEval 벤치마크는 단순히 텍스트 유사성이 아닌 기능적 시뮬레이션(functional simulation)을 사용하여 하드웨어 작업에 대해 LLM을 테스트할 수 있는 재현 가능한 방법이 필요함을 보여주었습니다. 이 벤치마크는 하드웨어의 경우 정확성이 산문(prose)이 아닌 동작(behavior)을 기준으로 확인되어야 한다는 기본적인 진리를 확립하는 데 도움을 주었습니다.

StepPRM-RTL은 그 교훈을 바탕으로 구축되었습니다. 이 모델은 RTL 합성을 장기적 추론(long-horizon reasoning) 문제로 취급하며, 모델이 최종 모듈 텍스트뿐만 아니라 솔루션으로 가는 경로에 대해 평가되고 학습되어야 한다고 봅니다.

StepPRM-RTL이 변화시키는 것

이 논문은 네 가지 아이디어를 하나의 파이프라인으로 결합합니다.

첫째, 표준(canonical) RTL 솔루션을 **단계별 궤적 (stepwise trajectories)**으로 변환합니다. 각 단계는 짧은 근거(rationale)와 그에 상응하는 코드 수정 사항을 포함합니다. 이는 모델이 더 이상 하나의 거대한(monolithic) 정답으로부터 학습하는 것이 아니기 때문에 중요합니다. 대신 모델은 인터페이스 정의, 상태 로직(state logic) 설정, 리셋 동작(reset behavior) 추가, 그리고 전이 로직(transition logic) 처리와 같은 일련의 설계 단계(design moves)로부터 학습합니다.

둘째, **프로세스 보상 모델 (process reward model)**을 도입합니다. 프로세스 보상 모델은 최종 출력이 나올 때까지 기다리는 대신 중간 단계들에 점수를 부여합니다. 하드웨어 합성(hardware synthesis)의 경우, 많은 실수가 초기에 발생하여 나중에 누적되기 때문에 이 방식이 유용합니다. 단계별 점수는 최종 코드가 문법적으로는 여전히 유효해 보이더라도, 잘못된 방향으로 향하고 있는 불완전한 설계를 식별해낼 수 있습니다.

셋째, StepPRM-RTL은 대안적인 추론 경로를 탐색하기 위해 **몬테카를로 트리 탐색 (Monte Carlo Tree Search, MCTS)**을 사용합니다. 쉽게 말해, 첫 번째 초안이 반드시 최선의 초안이라고 가정하지 않습니다. 단계별 보상 모델의 안내를 받아 더 나은 추론 및 코드 수정 시퀀스를 탐색합니다.

넷째, 이 논문은 **검색 증강 미세 조정 (retrieval-augmented fine-tuning)**을 추가합니다. 이는 모델이 학습 과정에서 관련된 설계 패턴을 가져올 수 있음을 의미하며, 이를 통해 매번 처음부터 일반화하려고 시도하는 대신 유사한 표준 솔루션으로부터 학습하는 데 도움을 줍니다.

이 논문 외에 이 방법론이 흥미로운 이유

여기서 중요한 아이디어는 단순히 "더 나은 RTL 생성"이 아닙니다. 더 넓은 관점에서의 교훈은 학습 신호(training signal)가 작업의 구조와 일치할 때 코드 모델이 개선된다는 것입니다.

이는 코드에 대한 프로세스 보상 모델에 관한 최근 연구들의 공통된 주제입니다. 예를 들어, FunPRM은 함수를 추론 단계로 취급한 다음 메타 학습(meta-learning) 체계를 통해 노이즈가 있는 부분적 보상을 교정할 것을 제안합니다. 세부 사항은 StepPRM-RTL과 다르지만, 방향성은 동일합니다. 즉, 코딩 작업이 자연스러운 분해(decomposition) 구조를 가지고 있다면, 보상 모델 또한 그 분해 구조를 반영해야 한다는 것입니다.

이는 또한 유용한 문서를 사용하는 방법과 방해 요소(distractors)를 무시하는 방법을 가르침으로써 언어 모델을 도메인 특화 검색(domain-specific retrieval) 설정에 적응시키는 RAFT와도 일맥상통합니다. StepPRM-RTL에서 검색(retrieval)은 RTL 패턴에 대한 추론(reasoning)을 지원하는 데 사용됩니다. 일반적인 패턴은 모델이 추론(inference) 시점에 필요로 할 종류의 컨텍스트(context)를 포함하여 학습할 때 성능이 향상된다는 것입니다.

결과가 시사하는 점

논문에 따르면, StepPRM-RTL은 이전 방법들과 비교했을 때 **기능적 정확성 (functional correctness)**과 **추론 충실도 (reasoning fidelity)**를 모두 10% 이상 향상시켰습니다. 이는 성능 향상이 단순히 표면적인 포맷팅에 국한되지 않음을 시사하기 때문에 의미 있는 결과입니다. 모델은 단순히 더 자주 통과하는 코드를 생성할 뿐만 아니라, 더 나은 중간 단계의 결정(intermediate decisions)을 내리고 있습니다.

절제 연구 (ablation studies)는 특히 유용합니다. 논문에서 프로세스 보상 모델(process reward model)을 제거했을 때 성능이 하락합니다. 검색(search) 또는 보상 가이드 미세 조정 (reward-guided fine-tuning)을 제거했을 때 성능은 다시 하락합니다. 이는 성능 향상이 단 하나의 기법에서만 오는 것이 아님을 말해줍니다. 그것은 조밀한 중간 피드백 (dense intermediate feedback)을 검색 및 검색(retrieval)과 결합함으로써 얻어지는 결과입니다.

그럼에도 불구하고, 이 논문을 문제가 완전히 해결된 것으로 읽어서는 안 됩니다. RTL은 강력한 자동 검증 기능이 있는 좁은 도메인이며, 이는 프로세스 보상 방식에 적합한 환경을 제공합니다. 더 어려운 질문은 이 접근 방식이 더 넓은 하드웨어 워크플로우, 더 큰 설계 공간(design spaces), 그리고 검증 설정이 불완전한 사례로 얼마나 잘 전이(transfer)될 수 있는가 하는 점입니다. 그곳들은 모델이 여전히 확신을 가지고 틀릴 수 있는 영역입니다.

이것이 AI 지원 하드웨어 설계에 의미하는 바

하드웨어 설계 분야에서 일한다면, 실질적인 교훈은 간단합니다. 가장 유용한 LLM은 가장 화려한 초안을 만들어내는 모델이 아닐 수도 있습니다. 대신 설계가 진화하는 동안 작업의 구조와 일관성을 유지할 수 있는 모델이 가장 유용할 것입니다.

StepPRM-RTL은 모델이 더욱 절제된 방식으로 RTL 설계를 돕는 워크플로우를 지향합니다. 즉, 단계를 제안하고, 해당 단계를 점수화하며, 대안을 탐색하고, 유사한 설계 패턴을 가져온 뒤, 최종 결과를 테스트를 통해 검증하는 방식입니다. 이는 어쨌든 숙련된 엔지니어들이 일하는 방식에 더 가깝습니다. 그들은 단순히 코드만 작성하는 것이 아닙니다. 설계를 통해 추론하고, 가정을 확인하며, 로직이 일치하지 않을 때 수정합니다.

그런 의미에서 StepPRM-RTL은 하드웨어 엔지니어를 대체하는 것이라기보다, 하드웨어가 실제로 구축되는 방식을 존중하는 훈련 환경을 LLM (Large Language Models)에 제공하는 것에 더 가깝습니다.

출처

주요 출처:

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

참고 출처:

StepPRM-RTL이 Verilog 및 VHDL 생성을 개선하기 위해 단계별 보상(Stepwise Rewards)을 사용하는 방법

요약

핵심 포인트

StepPRM-RTL이 Verilog 및 VHDL 생성을 개선하기 위해 단계별 보상(Stepwise Rewards)을 사용하는 방법

RTL 생성이 까다로운 벤치마크인 이유

StepPRM-RTL이 변화시키는 것

이 논문 외에 이 방법론이 흥미로운 이유

결과가 시사하는 점

이것이 AI 지원 하드웨어 설계에 의미하는 바

출처

댓글