arXiv논문2026. 05. 20. 16:33

NL-to-SVA 생성을 위한 개방형 속성 동등성 검증기를 활용한 보상 가중 온-폴리시 증류 (Reward-Weighted On-Policy

요약

기존의 지도 미세 조정(SFT) 방식이 SVA의 논리적 정확성보다 토큰 모방에 치중하는 문제를 해결하기 위해 RWOPD(Reward-Weighted On-Policy Distillation) 기법을 제안합니다. 이 방법은 SymbiYosys+Z3 검증기를 통해 속성 동등성을 확인하고, 검증을 통과한 샘플에 대해 교사 모델의 지식을 증류하여 모델의 논리적 정확도를 높입니다. 이를 통해 Qwen2.5-Coder-7B-Instruct 기반의 CodeV-SVA-14B 모델은 기존 SOTA 모델 및 대규모 범용 모델을 능가하는 성능을 달성했습니다.

핵심 포인트

기존 SFT 방식은 SVA의 속성 동등성(property equivalence)보다 단순 토큰 모방에 최적화되는 한계가 있음
RWOPD는 검증기(PEC)를 활용하여 학생 모델의 롤아웃을 평가하고 검증된 결과에 대해 보상 가중 증류를 수행함
SymbiYosys+Z3를 활용한 개방형 속성 동등성 검증기를 통해 논리적 정확성을 보장함
CodeV-SVA-14B 모델은 NL2SVA 벤치마크에서 기존 특화 모델 및 671B 규모의 범용 모델보다 뛰어난 성능을 기록함

SystemVerilog Assertions (SVA)의 LLM 기반 생성은 가장 강력한 특화 모델이 NL2SVA-Human에서 약 76%의 정확도에 도달함에 따라 종종 포화 상태에 가까워졌다고 보고됩니다. 우리는 이러한 총체적인 수치가 시간적 격차를 숨기고 있음을 보여줍니다. 전반적으로 강력해 보이는 모델들도 유한 지연 (bounded-delay) 및 라이브니스 (liveness) 사양에 대해서는 여전히 몇 가지 함축 (implication) 템플릿으로 붕괴되는 현상을 보입니다. 핵심적인 문제는 NL/SVA 쌍에 대한 지도 미세 조정 (Supervised Fine-Tuning, SFT)이라는 지배적인 방식이 SVA의 정확성을 정의하는 extit{속성 동등성 (property equivalence)}보다는 토큰 수준의 모방을 최적화한다는 점입니다. 우리는 extit{보상 가중 온-폴리시 증류 (Reward-Weighted On-Policy Distillation, RWOPD)}를 소개합니다. 이는 학생 모델의 롤아웃 (rollout)을 샘플링하고, 이를 개방형 SymbiYosys+Z3 속성 동등성 검증기 (Property-Equivalence Checker, PEC)로 점수를 매긴 뒤, 검증을 통과한 롤아웃에 대해 동결된 14B 교사 모델로부터 검증기-보상-가중 전방 KL 그래디언트 (verifier-reward-weighted forward-KL gradient)를 적용하는 온-폴리시 증류 방법입니다. 이를 통해 모든 응답 토큰에서 감독을 조밀하게 유지하는 동시에, 선택과 손실 가중치(loss weight) 모두를 속성 동등한 동작에 기반하도록 합니다. RWOPD는 CodeV-SVA-14B를 Qwen2.5-Coder-7B-Instruct 학생 모델로 증류하며, 이 모델은 pass@1, pass@5, pass@10 전반에 걸쳐 NL2SVA-Human 및 NL2SVA-Machine에서 새로운 SOTA (State-of-the-Art)를 기록하며, 기존의 특화된 SOTA 모델들과 671B 규모의 범용 베이스라인 모델들을 모두 능가합니다.

AI 자동 생성 콘텐츠

원문 바로가기

NL-to-SVA 생성을 위한 개방형 속성 동등성 검증기를 활용한 보상 가중 온-폴리시 증류 (Reward-Weighted On-Policy

요약

핵심 포인트

댓글