arXiv논문2026. 06. 29. 11:22

MultModLM: LLM 기반 하드웨어 회로도 생성을 위한 멀티모달 벤치마크

요약

RTL 기술을 기반으로 하드웨어 회로도를 생성하는 멀티모달 LLM의 성능을 평가하기 위한 벤치마크 MultModLM을 제안합니다. 실험 결과, 모델들이 시각적 회로도는 생성할 수 있으나 기능적 정확성은 낮으며, LLM 기반 평가 방식의 신뢰성 문제도 확인되었습니다.

핵심 포인트

하드웨어 회로도 생성을 위한 멀티모달 벤치마크 MultModLM 소개
99개의 다양한 RTL 모듈을 포함한 데이터셋 구축
다단계 평가 프레임워크를 통한 정밀한 성능 검증 시도
LLM의 하드웨어 설계 기능적 정확성 및 평가 신뢰성 한계 발견

최근 거대 언어 모델 (LLMs)은 여러 분야에서 응용되고 있습니다. 이는 하드웨어 정의 및 합성 분야로도 확장되고 있습니다. 그러나 LLM과 하드웨어 생성의 교차점에 있는 대부분의 연구는 텍스트 기반 작업에 집중되어 있어, RTL 설계를 위한 멀티모달 LLM (multi-modal LLMs)의 공백이 존재합니다. 본 연구에서는 RTL (Register Transfer Level) 기술로부터 하드웨어 회로도를 생성하는 작업에 대해 LLM을 평가하기 위한 벤치마크인 MultModLM을 소개합니다. 데이터셋은 산술, 제어 및 상태 기반 설계를 아우르는 99개의 다양한 RTL 모듈로 구성됩니다. 유일하지 않은 회로도 표현 방식의 문제를 해결하기 위해, 우리는 철저한 평가를 가능하게 하는 루브릭 기반 점수 산정 (rubric-based scoring), 자기 평가 (self-evaluation), 교차 모델 평가 (cross-model assessment), 블라인드 평가 (blind evaluation) 및 인간 검증 (human validation)을 결합한 다단계 평가 프레임워크를 제안합니다. 최첨단 LLM들을 대상으로 한 실험을 통해, 모델들이 시각적으로 해석 가능한 회로도를 생성할 수는 있지만, 기능적 정확성 (functional correctness)은 여전히 제한적이라는 것을 관찰했습니다. 또한, LLM 기반 평가자들이 인간 평가자와 거의 일치하지 않는 합의도를 보인다는 것을 발견했으며, 이는 구조적으로 정밀한 도메인에서는 LLM-as-a-judge 패러다임이 신뢰할 수 없다는 핵심적인 발견을 드러냅니다. 이러한 결과는 멀티모달 하드웨어 출력의 신뢰할 수 있는 평가가 여전히 해결되지 않은 과제로 남아 있음을 시사하며, 공식 동등성 검사기 (formal equivalence checkers)를 활용할 수 있도록 구조적 평가를 위한 도구뿐만 아니라 더욱 강력하고 도메인 인지적인 (domain-aware) 평가 방법론의 필요성을 뒷받침합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MultModLM: LLM 기반 하드웨어 회로도 생성을 위한 멀티모달 벤치마크

요약

핵심 포인트

댓글