arXiv논문2026. 05. 20. 16:33

ChipMATE: 강화학습 (RL)을 통한 RTL 생성 성능 향상을 위한 멀티 에이전트 (Multi-Agent) 학습

요약

ChipMATE는 산업 현장의 보안 요구 사항과 검증 프로세스를 반영하여 설계된 최초의 자체 학습 멀티 에이전트 RTL 생성 프레임워크입니다. Verilog 에이전트와 Python 참조 모델 에이전트가 서로를 상호 검증하는 구조를 통해 골든 오라클 없이도 높은 정확도를 확보하며, 2단계 학습 파이프라인을 통해 협업 능력을 극대화했습니다. 실험 결과, VerilogEval V2에서 DeepSeek V4를 능가하는 뛰어난 pass@1 성능을 기록했습니다.

핵심 포인트

Verilog 에이전트와 Python 참조 모델 에이전트 간의 상호 검증을 통한 골든 오라클 의존성 제거
오류 전파 방지를 위한 백트래킹(backtrack) 기반의 추론 워크플로우 설계
개별 학습 후 공동 학습을 진행하는 2단계 학습 파이프라인 적용
64.4K개의 고품질 참조 모델 샘플을 생성하는 하이브리드 데이터 프레임워크 구축
VerilogEval V2에서 최대 80.1%의 pass@1 성능을 달성하며 대규모 모델 대비 우위 증명

RTL 코드 생성을 위한 기존의 API 기반 에이전트 시스템은 산업 현장의 실무와 근본적으로 맞지 않습니다. 이러한 시스템들은 생성 시점에 골든 테스트벤치 (golden testbench)가 이미 존재한다고 가정하며, 칩 제조사의 폐쇄망 (air-gapped) 보안 요구 사항과 호환되지 않는 폐쇄형 API에 의존하고, 제조사의 독점적인 RTL 코드베이스로 학습할 수 없어 가치 있는 내부 데이터를 활용하지 못합니다. 최근의 자체 학습 모델 (self-trained models)들은 배포 제약 문제는 해결했지만, 실제 산업 워크플로우에서 검증 (verification)의 결정적인 역할을 간과하는 단발성 생성기 (single-turn generators)로 남아 있습니다.

이러한 격차를 해소하기 위해, 우리는 RTL 생성을 위한 최초의 자체 학습 멀티 에이전트 (multi-agent) 프레임워크인 ChipMATE를 선보입니다. 독립적으로 작성된 RTL 모듈과 참조 모델 (reference models) 간의 상호 비교를 통해 정확성이 확보되는 산업 실무에서 영감을 받아, ChipMATE는 Verilog 에이전트와 Python 참조 모델 에이전트를 쌍으로 구성하여 어떠한 골든 오라클 (golden oracle) 없이도 서로의 출력을 상호 검증하도록 합니다. 우리는 턴 (turn) 간의 오류 전파를 방지하기 위해 백트래킹 (backtrack) 기반의 추론 워크플로우를 설계하였으며, 먼저 각 에이전트를 개별적으로 학습시켜 코드 생성 능력을 극대화한 후, 팀 전체를 공동 학습시켜 효과적으로 협업하도록 하는 2단계 학습 파이프라인을 설계했습니다. 학습을 지원하기 위해, 우리는 64.4K개의 고품질 참조 모델 학습 샘플을 생성하는 하이브리드 데이터 생성 프레임워크를 추가로 구축했습니다.

ChipMATE는 4B 및 9B 베이스 모델을 사용하여 VerilogEval V2에서 각각 75.0%와 80.1%의 pass@1 성능을 달성하였으며, 이는 기존의 모든 자체 학습 모델은 물론 1600B 파라미터를 가진 DeepSeek V4조차 능가하는 성능입니다. 우리의 코드와 모델 가중치는 https://github.com/zhongkaiyu/ChipMATE 에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ChipMATE: 강화학습 (RL)을 통한 RTL 생성 성능 향상을 위한 멀티 에이전트 (Multi-Agent) 학습

요약

핵심 포인트

댓글