arXiv논문2026. 06. 23. 12:13

Text2DSL을 위한 문맥 인식 증류 및 절제 연구

요약

자연어 설명을 도메인 특화 언어(DSL) 코드로 변환하는 Text2DSL 연구를 확장하여, 문맥 인식 증류 방식과 구조적 요인 절제 연구를 수행했습니다. DeepSeek-V4-Flash를 활용해 검증된 PolkitBench 코퍼스를 구축하고, 구조적 문맥이 코드 생성 성능에 미치는 핵심적인 역할을 입증했습니다.

핵심 포인트

문맥 인식 증류를 통해 검증된 10,073개의 PolkitBench 코퍼스 구축
구조적 문맥(BNF, API, 어휘집)이 코드 생성의 핵심 지지 메커니즘임을 확인
어휘집이 의미론적 품질에, API와 BNF가 구조적 유효성에 가장 큰 기여
고난도 코퍼스 환경에서 문맥 강화 모드의 강력한 성능 유지 입증

우리는 자연어 설명으로부터 도메인 특화 언어 (DSL) 코드를 자동 생성하는 Text2DSL에 관한 이전 연구를 두 가지 상호 보완적인 축을 따라 확장합니다. 첫째, 프롬프트 전용 합성 생성 방식을 문맥 인식 증류 (context-aware distillation)로 대체합니다. 이 방식에서 교사 대규모 언어 모델 (LLM, DeepSeek-V4-Flash)은 BNF 문법, API 명세, 그리고 폐쇄형 식별자 어휘집 (closed identifier vocabulary)으로 구성된 명시적으로 정의된 구조적 문맥 하에서 작동합니다. 생성된 코퍼스는 esprima를 통한 추상 구문 트리 (AST) 검증과 production polkitd 데몬 및 pkcheck 클라이언트를 통한 런타임 수락을 결합한 2단계 파이프라인을 통해 검증됩니다. 이를 통해 검증된 PolkitBench 코퍼스는 100.0%의 AST 유효성과 99.7%의 런타임 통과율을 기록하며, 자연어-to-Polkit-규칙 쌍이 4,204개에서 10,073개로 확장되었습니다. 둘째, 이전 연구에서 향후 과제로 식별되었던 구조적 문맥에 대한 구성 요소별 요인 절제 (factorial ablation) 연구를 수행합니다. 새로운 코퍼스를 사용하여 GigaChat-10B-A1.8B 모델에서 8가지 조건(C0-C7)을 평가했습니다. 세 가지 결과가 도출되었습니다. (i) 새로운 고난도 코퍼스는 베이스라인 모드를 붕괴시켰으나 (Syntax Valid 97.6% -> 58.5%, Combined Score 0.482 -> 0.252), 문맥 강화 모드는 미미하게 저하되었습니다 (Syntax 98.6% -> 97.4%, Combined 0.801 -> 0.750). 이는 구조적 문맥이 단순한 미적 개선이 아니라 핵심적인 지지 메커니즘임을 확인시켜 줍니다. (ii) 모든 지표에서 가장 우수한 절대적 조건은 전체 문맥인 C7이었으며, 가장 강력한 부분 조건들(C5 = BNF + Vocabulary, C6 = API + Vocabulary)은 모두 어휘집을 포함하고 있었습니다. (iii) Shapley 방식의 분해 결과, 가장 큰 의미론적 품질 (semantic-quality) 효과는 어휘집(Combined +0.198)에 할당되었고, 가장 큰 구조적 유효성 (structural-validity) 효과는 API (+24.7 pp)와 BNF (+22.3 pp)에 할당되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Text2DSL을 위한 문맥 인식 증류 및 절제 연구

요약

핵심 포인트

댓글