본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 16:33

NL-to-SVA 생성을 위한 개방형 속성 동등성 검증기를 활용한 보상 가중 온-폴리시 증류 (Reward-Weighted On-Policy

요약

기존의 지도 미세 조정(SFT) 방식이 SVA의 논리적 정확성보다 토큰 모방에 치중하는 문제를 해결하기 위해 RWOPD(Reward-Weighted On-Policy Distillation) 기법을 제안합니다. 이 방법은 SymbiYosys+Z3 검증기를 통해 속성 동등성을 확인하고, 검증을 통과한 샘플에 대해 교사 모델의 지식을 증류하여 모델의 논리적 정확도를 높입니다. 이를 통해 Qwen2.5-Coder-7B-Instruct 기반의 CodeV-SVA-14B 모델은 기존 SOTA 모델 및 대규모 범용 모델을 능가하는 성능을 달성했습니다.

핵심 포인트

  • 기존 SFT 방식은 SVA의 속성 동등성(property equivalence)보다 단순 토큰 모방에 최적화되는 한계가 있음
  • RWOPD는 검증기(PEC)를 활용하여 학생 모델의 롤아웃을 평가하고 검증된 결과에 대해 보상 가중 증류를 수행함
  • SymbiYosys+Z3를 활용한 개방형 속성 동등성 검증기를 통해 논리적 정확성을 보장함
  • CodeV-SVA-14B 모델은 NL2SVA 벤치마크에서 기존 특화 모델 및 671B 규모의 범용 모델보다 뛰어난 성능을 기록함

SystemVerilog Assertions (SVA)의 LLM 기반 생성은 가장 강력한 특화 모델이 NL2SVA-Human에서 약 76%의 정확도에 도달함에 따라 종종 포화 상태에 가까워졌다고 보고됩니다. 우리는 이러한 총체적인 수치가 시간적 격차를 숨기고 있음을 보여줍니다. 전반적으로 강력해 보이는 모델들도 유한 지연 (bounded-delay) 및 라이브니스 (liveness) 사양에 대해서는 여전히 몇 가지 함축 (implication) 템플릿으로 붕괴되는 현상을 보입니다. 핵심적인 문제는 NL/SVA 쌍에 대한 지도 미세 조정 (Supervised Fine-Tuning, SFT)이라는 지배적인 방식이 SVA의 정확성을 정의하는 extit{속성 동등성 (property equivalence)}보다는 토큰 수준의 모방을 최적화한다는 점입니다. 우리는 extit{보상 가중 온-폴리시 증류 (Reward-Weighted On-Policy Distillation, RWOPD)}를 소개합니다. 이는 학생 모델의 롤아웃 (rollout)을 샘플링하고, 이를 개방형 SymbiYosys+Z3 속성 동등성 검증기 (Property-Equivalence Checker, PEC)로 점수를 매긴 뒤, 검증을 통과한 롤아웃에 대해 동결된 14B 교사 모델로부터 검증기-보상-가중 전방 KL 그래디언트 (verifier-reward-weighted forward-KL gradient)를 적용하는 온-폴리시 증류 방법입니다. 이를 통해 모든 응답 토큰에서 감독을 조밀하게 유지하는 동시에, 선택과 손실 가중치(loss weight) 모두를 속성 동등한 동작에 기반하도록 합니다. RWOPD는 CodeV-SVA-14B를 Qwen2.5-Coder-7B-Instruct 학생 모델로 증류하며, 이 모델은 pass@1, pass@5, pass@10 전반에 걸쳐 NL2SVA-Human 및 NL2SVA-Machine에서 새로운 SOTA (State-of-the-Art)를 기록하며, 기존의 특화된 SOTA 모델들과 671B 규모의 범용 베이스라인 모델들을 모두 능가합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0