Kubernetes 매니페스트 생성을 위한 문맥-도구적 데이터 증류: 방법론 및 실험적 평가
요약
Kubernetes 매니페스트 생성을 위해 소형 언어 모델(SLM)을 전문화하는 '문맥-도구적 데이터 증류' 방법론을 제안합니다. 합성 데이터 생성과 외부 검증기를 결합하여 고품질의 학습 데이터를 구축하며, 실험을 통해 높은 정확도를 입증했습니다.
핵심 포인트
- 문맥-도구적 데이터 증류 방법론 제안
- 외부 검증기를 통한 고품질 합성 데이터 필터링
- DeepSeek-V4 Flash를 교사 모델로 활용
- Qwen2.5-Coder-1.5B 모델의 LoRA 미세 조정
- 엄격한 출력 형식 요구사항이 품질에 결정적 역할
본 논문은 도메인 특화 언어 (DSL)의 아티팩트 생성을 위해 최대 40억 개의 파라미터를 가진 소형 언어 모델 (SLM)의 전문화에 대해 조사합니다. 대상 도메인으로는 Kubernetes 매니페스트가 선정되었습니다. 우리는 문맥-도구적 데이터 증류 (context-instrumental data distillation) 방법을 제안합니다. 소스 코퍼스 (source corpus)는 합성 생성 (synthetic generation)을 통해 형성되며, 확장된 방식으로는 실제 Kubernetes YAML 파일로부터의 역방향 지시문 생성 (reverse instruction generation)을 통해 형성됩니다. 이때 생성된 쌍 (pairs)은 외부 검증기 (external validators)를 통과하고 도메인 문맥 모델 (domain context model)과 일치하는 경우에만 학습에 포함됩니다. 고전적인 KL-발산 (KL-divergence) 지식 증류 (knowledge distillation)와 달리, 베이스라인 구현은 도구적으로 검증된 예시들에 대한 지도 미세 조정 (supervised fine-tuning)으로 축소됩니다. 실험 섹션에서는 자원이 제한된 환경에서의 파일럿 구현을 제시합니다. DeepSeek-V4 Flash API가 합성 생성을 위한 교사 모델 (teacher) 역할을 수행하며, Qwen2.5-Coder-1.5B-Instruct는 CPU 환경에서 LoRA를 통해 미세 조정됩니다. K8s-Distill-Pilot 코퍼스 (train_1200, validation_100, test_200)에서, 엄격한 프롬프트 구성과 max_new_tokens=768 설정을 통해 full-pass@1 = 91.5% (183/200)를 달성했습니다. 주요 경험적 발견은 Kubernetes YAML의 경우, 파일럿의 결과 품질이 단순히 학습 예시의 수를 늘리는 것보다 엄격한 출력 형식 요구 사항에 더 크게 의존했다는 점입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기