Text2DSL을 위한 문맥 인식 증류 및 절제 연구
요약
자연어 설명을 도메인 특화 언어(DSL) 코드로 변환하는 Text2DSL 연구를 확장하여, 문맥 인식 증류 방식과 구조적 요인 절제 연구를 수행했습니다. DeepSeek-V4-Flash를 활용해 검증된 PolkitBench 코퍼스를 구축하고, 구조적 문맥이 코드 생성 성능에 미치는 핵심적인 역할을 입증했습니다.
핵심 포인트
- 문맥 인식 증류를 통해 검증된 10,073개의 PolkitBench 코퍼스 구축
- 구조적 문맥(BNF, API, 어휘집)이 코드 생성의 핵심 지지 메커니즘임을 확인
- 어휘집이 의미론적 품질에, API와 BNF가 구조적 유효성에 가장 큰 기여
- 고난도 코퍼스 환경에서 문맥 강화 모드의 강력한 성능 유지 입증
우리는 자연어 설명으로부터 도메인 특화 언어 (DSL) 코드를 자동 생성하는 Text2DSL에 관한 이전 연구를 두 가지 상호 보완적인 축을 따라 확장합니다. 첫째, 프롬프트 전용 합성 생성 방식을 문맥 인식 증류 (context-aware distillation)로 대체합니다. 이 방식에서 교사 대규모 언어 모델 (LLM, DeepSeek-V4-Flash)은 BNF 문법, API 명세, 그리고 폐쇄형 식별자 어휘집 (closed identifier vocabulary)으로 구성된 명시적으로 정의된 구조적 문맥 하에서 작동합니다. 생성된 코퍼스는 esprima를 통한 추상 구문 트리 (AST) 검증과 production polkitd 데몬 및 pkcheck 클라이언트를 통한 런타임 수락을 결합한 2단계 파이프라인을 통해 검증됩니다. 이를 통해 검증된 PolkitBench 코퍼스는 100.0%의 AST 유효성과 99.7%의 런타임 통과율을 기록하며, 자연어-to-Polkit-규칙 쌍이 4,204개에서 10,073개로 확장되었습니다. 둘째, 이전 연구에서 향후 과제로 식별되었던 구조적 문맥에 대한 구성 요소별 요인 절제 (factorial ablation) 연구를 수행합니다. 새로운 코퍼스를 사용하여 GigaChat-10B-A1.8B 모델에서 8가지 조건(C0-C7)을 평가했습니다. 세 가지 결과가 도출되었습니다. (i) 새로운 고난도 코퍼스는 베이스라인 모드를 붕괴시켰으나 (Syntax Valid 97.6% -> 58.5%, Combined Score 0.482 -> 0.252), 문맥 강화 모드는 미미하게 저하되었습니다 (Syntax 98.6% -> 97.4%, Combined 0.801 -> 0.750). 이는 구조적 문맥이 단순한 미적 개선이 아니라 핵심적인 지지 메커니즘임을 확인시켜 줍니다. (ii) 모든 지표에서 가장 우수한 절대적 조건은 전체 문맥인 C7이었으며, 가장 강력한 부분 조건들(C5 = BNF + Vocabulary, C6 = API + Vocabulary)은 모두 어휘집을 포함하고 있었습니다. (iii) Shapley 방식의 분해 결과, 가장 큰 의미론적 품질 (semantic-quality) 효과는 어휘집(Combined +0.198)에 할당되었고, 가장 큰 구조적 유효성 (structural-validity) 효과는 API (+24.7 pp)와 BNF (+22.3 pp)에 할당되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기