arXiv논문2026. 04. 26. 16:44

VerilogCL: LLM 기반 Verilog 코드 생성을 위한 대조 학습 프레임워크

요약

본 논문은 하드웨어 기술 언어(HDL)인 Verilog 코드를 생성하는 대규모 언어 모델(LLMs)의 신뢰성 문제를 해결하기 위해 'VerilogCL'이라는 통합 프레임워크를 제안합니다. 기존 LLM이 Verilog 코드 생성을 어려워하는 주된 이유는 고품질 학습 데이터 부족과 생성된 코드의 높은 오류율 때문입니다. VerilogCL은 대조 학습(Contrastive Learning)을 활용하여 올바른 RTL(Register-Transfer Level)과 미세하게 변형된 오류 코드를 쌍으로 학습시킵니다. 이를 통해 모델이 정확한 경

핵심 포인트

VerilogCL은 대조 학습을 사용하여 Verilog 코드의 유효성 경계를 명확히 학습합니다.
최소 오류 데이터 증강(minimal-error data augmentation) 기법으로 올바른 RTL과 미세하게 변형된 오류 코드를 쌍으로 생성하여 모델 훈련에 활용합니다.
생성 과정 중 신뢰도가 낮은 후보를 필터링하는 능동적 스크리닝 모듈을 도입했습니다.
VerilogEval 및 RTLLM 같은 공개 벤치마크에서 기존 최고 성능의 오픈소스/상용 모델보다 높은 컴파일 성공률과 기능적 정확성을 입증했습니다.

대규모 언어 모델(LLMs)이 소프트웨어 코드 생성 분야에서 뛰어난 성과를 보이고 있지만, 하드웨어 기술 언어(HDLs)인 Verilog와 같은 영역에 적용하는 것은 여전히 어렵습니다. 이는 고품질의 학습 데이터가 상대적으로 부족하기 때문입니다.

실제 사용 사례에서 LLM이 생성한 Verilog 코드는 구문적 또는 구조적 오류를 포함하는 경우가 많아, 컴파일 실패나 기능적 오작동을 일으켜 하드웨어 설계 워크플로우에서의 신뢰성을 떨어뜨립니다. 이러한 문제를 해결하기 위해 본 연구진은 'VerilogCL'이라는 통합 프레임워크를 제안합니다.

VerilogCL은 대조 학습(Contrastive Learning)과 능동적 오류 스크리닝을 명시적으로 결합하여 Verilog 코드 생성 성능을 향상시킵니다. 핵심은 최소 오류 데이터 증강(minimal-error data augmentation) 기법입니다. 이 방법을 통해 올바른 RTL(Register-Transfer Level)과 미세하게 변형된 오류 코드를 쌍으로 만들어 모델이 정확한 코드와 잘못된 코드의 미묘한 차이를 인식하도록 훈련합니다.

나아가, 표현 공간(representation space)에서 유효성 경계를 더욱 명확히 학습하기 위해 대조 학습을 적용했습니다. 또한, 생성 과정 중에는 의미론적 임베딩(semantic embeddings)과 토큰 수준 불확실성 특징(token-level uncertainty features)을 결합한 능동적 스크리닝 모듈을 도입하여 신뢰도가 낮은 후보를 사전에 걸러냅니다.

공개 벤치마크인 VerilogEval 및 RTLLM에서의 실험 결과, 본 연구진의 7B 파라미터 모델은 기존 최고 성능의 오픈소스, Verilog 특화, 상용 기반 모델들을 컴파일 성공률과 기능적 정확성 측면 모두에서 능가하는 성능을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

VerilogCL: LLM 기반 Verilog 코드 생성을 위한 대조 학습 프레임워크

요약

핵심 포인트

댓글