본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 11:50

말뭉치 기반 특징 확산(Corpus-Grounded Feature Diffusion)을 통한 번체 중국어 학부모-교사 면담 기반의 자동 개별화

요약

번체 중국어 환경에서 저자원 미세 조정을 통해 개별화 교육 프로그램(IEP)을 자동 생성하는 CGFD 파이프라인을 제안합니다. QLoRA를 활용해 Breeze-7B를 미세 조정하며, 로컬 추론 환경에서도 최신 LLM의 제로샷 성능을 능가하는 결과를 보여줍니다.

핵심 포인트

  • CGFD 기반의 저자원 미세 조정 파이프라인 제안
  • Breeze-7B 모델을 QLoRA로 미세 조정하여 IEP 생성
  • GCD 미사용 경로가 속도와 스키마 준수 측면에서 더 효율적임
  • 로컬 추론 시 GPT, Gemini 등 주요 모델의 제로샷 성능 상회

개별화 교육 프로그램(Individualized Education Programs, IEPs)을 작성하는 것은 노동 집약적이고 지식 집약적인 문서 작업 부담을 수반합니다. 영어권 연구에서는 생성형 AI(Generative AI)가 초안 작성 시간을 크게 단축할 수 있음을 입증했으나, 번체 중국어(Traditional Chinese)에서의 자동 IEP 생성은 도메인 데이터의 부족, 엄격한 개인정보 보호 규정, 그리고 현지 평가 벤치마크의 부재로 인해 사실상 탐구되지 않은 상태로 남아 있습니다. 본 연구에서는 말뭉치 기반 특징 확산(Corpus-Grounded Feature Diffusion, CGFD)을 중심으로 하는 저자원 미세 조정(Low-resource fine-tuning) 파이프라인을 제안합니다: (1) 플래그 인식 점수 상한(flag-aware score caps)이 적용된 타우 임계값(tau threshold)을 통해 25개의 이중 전문가 고득점 시드 전사본(seed transcripts)을 선정합니다; (2) 시드로부터 특징 프로필(FeatureProfile: 문장 길이, 구조, 정량화 템플릿)을 추출하여 언어화된 샘플링(Verbalized-Sampling) 스타일의 다양성 제어와 함께 LLM 프롬프트에 주입하여 확산을 유도합니다; (3) 15개의 전문가 골드 시드(gold seeds)를 확산 앵커(diffusion anchors)로 사용하여 585개의 샘플을 목표로 합니다. 이를 통해 567개의 유효한 확산 샘플을 얻었으며, QLoRA를 사용하여 Breeze-7B를 미세 조정하는 데 사용되는 582개의 샘플 학습 세트를 생성했습니다; (4) 문법 제약 디코딩(Grammar-Constrained Decoding, GCD)을 통한 스키마 제약 추론(schema-constrained inference)을 통해 추론 시 계층적 SMART 목표 사다리(SMART Goal Ladder) 스키마를 강제합니다. 55개의 샘플로 구성된 스키마 스트레스 세트(schema stress set)에 대한 절제 연구(Ablation results) 결과 예상치 못한 발견이 있었습니다: 번체 중국어 토큰 예산 하에서 GCD는 오히려 역효효과를 냅니다. GCD를 사용하지 않는 경로(no-GCD path)는 중앙값 지연 시간(median latency)이 34% 더 낮으면서도 100%의 스키마 통과율을 달성하여, 신뢰성과 속도 모두에서 GCD를 능가했습니다. n=10의 공식 홀드아웃(hold-out) 테스트에서, no-GCD 추론 경로는 BERTScore F1 = 0.779를 달성하여, 완전한 로컬 에어갭(air-gapped) 추론을 유지하면서도 GPT-5.4 (0.726), DeepSeek-V3.2 (0.703), Gemini-3-Flash-Preview (0.703), 그리고 Llama-4-Maverick (0.700) 제로샷(zero-shot) 베이스라인을 능가했습니다. 이 시스템은 번체 중국어 특수 교육 NLP의 공백을 메우며, 산업 공학 패러다임 하에서 확장 가능하고 개인정보를 보호하는 로컬 추론 솔루션을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0