본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 13:14

환상에서 정교화까지: 신뢰할 수 있는 멀티모달 회로-베릴로그 코드 생성을 위한 접근

요약

본 논문은 회로도와 같은 복잡하고 안전성이 중요한 시각적 도메인 전문 언어를 RTL(레지스터 전송 수준) 코드로 변환하는 과정에서 발생하는 'Mirage'라는 심각한 신뢰성 문제를 지적합니다. 이 현상은 MLLM이 실제 시각 정보를 무시하고 모듈 헤더의 식별자 의미론에 의존하여 표준 템플릿을 검색함으로써 발생하며, AI 코드 생성의 근본적인 취약점을 드러냅니다. 연구진은 이를 해결하기 위해 식별자 익명화와 D-ORPO(Decision-Focused ORPO)를 활용하여 훈련된 VeriGround 모델을 제안했으며, 이 모델은 낮은 파라미터 크기에도 불구하고 진정한 시각적 정교화를 입증하며 높은 성능과 신뢰성을 보여주었습니다.

핵심 포인트

  • 회로도(Circuit Diagram)를 RTL 코드로 변환하는 것은 MLLM의 신뢰성 테스트가 필요한 고난이도 'Vision-to-Code' 작업이다.
  • 'Mirage' 현상은 MLLM이 시각적 입력 대신 모듈 헤더의 식별자 의미론에 의존하여 코드 생성 오류를 일으키는 새로운 유형의 취약점이다.
  • 연구진은 C2VEVAL을 구성하고 Normal/Anony 프로토콜을 통해 Mirage 현상을 정량적으로 입증했다.
  • 제안된 VeriGround 모델은 식별자 익명화와 D-ORPO 훈련을 통해, 낮은 파라미터 크기(4B)로도 높은 시각적 정교화 능력을 달성하여 기존 SOTA 모델과 동등하거나 우수한 성능을 보였다.

멀티모달 대규모 언어 모델 (MLLMs) 은 시각적 아티팩트를 코드로 변환하는 데 점차 더 많이 사용되고 있습니다. UI 와이어프레임을 HTML 로, 과학적 그래프를 파이썬 스크립트로 변환하는 것이 이에 해당합니다. 회로도 (circuit diagram) 는 하드웨어를 위한 시각적 도메인 전문 언어로 볼 수 있습니다. 이 도면은 일반인이 쉽게 눈으로 확인할 수 없는 타이밍, 토폴로지, 비트 레벨 의미론을 인코딩하지만, 실리콘에 구현될 경우 안전성이 매우 중요한 요소가 됩니다. 따라서 이러한 도면을 레지스터 전송 수준 (RTL) 코드 로 변환하는 것은 시선 기반 코드 생성 (vision-to-code generation) 에 대한 극단적인 신뢰성 테스트를 나타냅니다.

우리는 이를 'Mirage(환상)'이라고 부르는 현상을 드러냈습니다. 회로도를 빈 이미지로 대체하더라도 Pass@k 는 변하지 않거나 오히려 높아지는 현상입니다. 이는 모델이 시각적 입력을 우회하고, 대신 모듈 헤더의 식별자 의미론 (identifier semantics) 을 활용하여 표준 RTL 템플릿을 검색하기 때문입니다. 이는 AI 지원 코드 생성에서 발생하는 새로운 고도로 은밀한 결함 유형으로, MLLM 의 신뢰성을 직접적으로 훼손합니다.

이러한 효과의 크기를 정량화하기 위해 우리는 C2VEVAL 을 구성하고, 모든 식별자를 도면과 모듈 헤더 모두에서 익명화하는 쌍 (paired) Normal/Anony 프로토콜 하에 8 개의 MLLM 을 평가했습니다. Anony 모드에서는 모든 모델에서 점수가 급격히 하락하여, 높은 Normal 모드 정확도가 대부분 Mirage 에 기인함을 확인했습니다.

그 후 우리는 식별자 익명화, 거부 (refusal) 증강, 그리고 핵심 생성 또는 거부 토큰을 더 가중치는 D-ORPO (Decision-Focused ORPO) 선호도 정렬로 훈련된 VeriGround(4B) 를 제안합니다. VeriGround 는 Normal/Anony 모드에서 각각 46.11%/42.51% 의 기능적 Pass@1 을 달성하면서, 거짓 거부율 (False Refusal Rate) 은 오직 1.20%/0.00% 에 그쳤습니다. 동시에 빈 이미지에 대해서는 92% 이상의 거부율을 유지했습니다. 파라미터가 4B(40 억) 에 불과한 VeriGround 는 Normal 모드에서 GPT-5.4 와 동등한 성능을 보이며, Anony 모드에서는 모든 베이스라인을 크게 앞지릅니다. 이는 진정한 시각적 정교화 (visual grounding) 를 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0