arXiv중요논문2026. 04. 24. 03:22

ChipCraftBrain: 다중 에이전트 기반 RTL 자동 생성 프레임워크

요약

본 논문은 자연어 명세로부터 높은 기능적 정확도를 가진 레지스터 전송 레벨(RTL) 코드를 자동으로 생성하는 새로운 프레임워크, ChipCraftBrain을 소개합니다. 기존의 단일 에이전트 모델들은 60-65% 수준에 머무르는 반면, ChipCraftBrain은 적응형 다중 에이전트 오케스트레이션과 하이브리드 심볼릭-신경 아키텍처를 결합하여 성능을 극대화했습니다. VerilogEval-Human에서 97.2%의 높은 평균 pass@1 점수를 달성했으며, 특히 NVIDIA의 CVDP와 같은 산업 표준 벤치마크에서도 기존 대비 상당한

핵심 포인트

ChipCraftBrain은 PPO 정책을 이용해 6개의 전문 에이전트를 적응적으로 오케스트레이션하여 RTL 생성 정확도를 높였습니다.
하이브리드 심볼릭-신경 아키텍처를 도입하여 K-map 및 진리표 문제를 알고리즘적으로 해결하고, 특화된 에이전트가 타이밍과 일반 RTL을 처리합니다.
VerilogEval-Human 벤치마크에서 평균 pass@1 점수 97.2%를 달성하며 기존 SOTA 모델(MAGE) 대비 성능 우위를 입증했습니다.
NVIDIA의 CVDP 중 비에이전트 세트에서 302개 문제에 대해 평균 pass@1 94.7%를 기록했으며, 이는 단일샷 기준선 대비 각 카테고리당 36~60%p 향상입니다.
RISC-V SoC 사례 연구에서는 계층적 분해(hierarchical decomposition)를 통해 FPGA 검증까지 성공한 8/8 모듈을 생성하여 대규모 통합 가능성을 입증했습니다.

최근 LLM(Large Language Models)이 자연어 명세로부터 레지스터 전송 레벨(RTL, Register-Transfer Level) 코드를 생성하는 데 큰 잠재력을 보여주고 있습니다. 그러나 기존의 단일 샷(single-shot) 방식으로는 표준 벤치마크에서 겨우 60~65% 수준의 기능적 정확도만을 달성했습니다.

이에 대응하여 MAGE와 같은 다중 에이전트 접근법(Multi-agent approaches)은 VerilogEval에서 95.9%에 도달하는 등 성능 향상을 보였으나, NVIDIA의 CVDP와 같이 더 까다로운 산업 표준 벤치마크에서는 검증되지 않았고, 합성 인식(synthesis awareness)이 부족하며 API 비용도 높다는 한계가 있었습니다.

본 논문에서 제안하는 ChipCraftBrain은 이러한 문제들을 해결하기 위해 심볼릭-신경 추론(symbolic-neural reasoning)과 적응형 다중 에이전트 오케스트레이션(adaptive multi-agent orchestration)을 결합한 프레임워크입니다. 이 시스템의 네 가지 주요 혁신 요소는 다음과 같습니다:

적응형 오케스트레이션: PPO 정책을 사용하여 6개의 전문화된 에이전트를 적응적으로 제어합니다 (상태 공간은 168차원). 이는 세계 모델 MPC 플래너(world-model MPC planner)와 같은 대안도 평가되었습니다.
하이브리드 아키텍처: K-map이나 진리표 문제 같은 논리적 문제는 알고리즘적으로 해결하는 심볼릭 방식과, 파형 타이밍 및 일반 RTL을 처리하는 전문 에이전트가 결합된 하이브리드 구조를 채택했습니다.
지식 증강 생성 (Knowledge-Augmented Generation): 321개의 패턴 기반 지식에 971개의 오픈 소스 레퍼런스 구현체를 추가하고, 초점 인식 검색(focus-aware retrieval)을 통해 지식을 강화하여 코드 생성을 수행합니다.
계층적 명세 분해: 시스템은 의존성 순서가 정해진 서브 모듈로 복잡한 사양을 계층적으로 분해하며 인터페이스 동기화까지 처리할 수 있습니다.

주요 성능 결과:

VerilogEval-Human: ChipCraftBrain은 평균 pass@1 점수 97.2%를 달성했습니다 (7회 실행 범위: 96.15~98.72%, 최고 기록 154/156). 이는 자체 보고된 ChipAgents(97.4%)와 유사하며, MAGE(95.9%)보다 높은 수치입니다.
CVDP (비에이전트 세트): 302개 문제로 구성된 비에이전트 서브셋에서 평균 pass@1 점수 94.7%를 기록했습니다 (총 3회 실행 평균, 286/302). 이는 기존 단일샷 기준선 대비 각 카테고리당 36~60%p의 큰 향상입니다.
RISC-V SoC 사례 연구: 계층적 분해 방식을 통해 8개의 모듈을 성공적으로 생성했으며 (총 689 LOC), 이들은 FPGA 검증까지 통과했습니다. 이는 단일 모놀리식(monolithic) 생성 방식으로는 아예 실패하는 경우였습니다.

이러한 결과들은 ChipCraftBrain이 복잡하고 산업적인 수준의 RTL 자동 생성에 매우 효과적임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ChipCraftBrain: 다중 에이전트 기반 RTL 자동 생성 프레임워크

요약

핵심 포인트

댓글