본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 11:06

DistilledGemma: 다국어 역사적 기사에서의 인물-장소 관계 추출을 위한 균형 잡힌 효율성-정확성

요약

DistilledGemma는 다국어 역사적 기사에서 인물-장소 관계를 추출하기 위한 효율적인 지식 증류 시스템입니다. Gemma 4 26B 모델의 추론 능력을 2.3B 소형 모델로 전이하여 정확도와 계산 효율성 사이의 최적의 균형을 달성했습니다.

핵심 포인트

  • 3단계 지식 증류 파이프라인을 통한 효율적 모델 구축
  • Gemma 4 26B 교사 모델에서 2.3B 학생 모델로 지식 전이
  • HIPE-2026 공유 태스크에서 높은 정확도와 효율성 기록
  • 다국어 역사적 문서 처리를 위한 확장 가능한 솔루션 제시

우리는 영어, 독일어, 프랑스어로 작성된 다국어 역사적 신문 기사에서 인물-장소 관계 추출을 수행하는 HIPE-2026 공유 태스크를 위한 효율적이고 정확한 시스템인 DistilledGemma를 선보입니다. 우리의 접근 방식은 분류 정확도와 계산 효율성 사이의 균형을 맞추도록 설계된 3단계 지식 증류 (Knowledge Distillation) 파이프라인을 채택합니다. 첫 번째 단계에서는 이 까다로운 과제를 위한 가장 효과적인 추론 아키텍처를 식별하기 위해 8개의 대규모 언어 모델 (LLM)에 걸쳐 프롬프트 엔지니어링 (Prompt Engineering) 전략을 체계적으로 탐색했습니다. 두 번째 단계에서는 Gemma 4 26B A4B 교사 모델 (Teacher Model)에 QLoRA를 통한 지도 미세 조정 (Supervised Fine-Tuning, SFT)을 적용하여, 해당 모델의 강력한 다국어 능력을 활용해 훈련 코퍼스 전반에 걸쳐 실버 표준 (Silver-standard) 사고 사슬 (Chain-of-thought) 추적을 생성했습니다. 마지막 단계에서는 이러한 학습된 추론 패턴을 소형 Gemma 4 E2B 학생 모델 (Student Model)로 전이하기 위해 응답 수준 증류 (Response-level Distillation)를 수행했습니다. 공식 평가에서 우리 팀 WHEREAMI는 표준 테스트 세트에서 정확도 프로필 평균 점수 0.688로 3위를 차지했으며, 이진 (Binary) 테스트 세트에서는 평균 점수 0.8156로 2위를 차지했습니다. 특히, 26B 교사 모델에서 2.3B 학생 모델로 지식을 증류함으로써, 배포 모델 크기를 약 2.3B 유효 파라미터로 줄이면서도 강력한 추론 능력을 보존했습니다. 훈련 중에 사용된 LoRA 어댑터는 추론을 위해 학생 모델에 병합되었습니다. 이 구성은 표준 및 이진 테스트 세트 모두에서 균형 잡힌 효율성-정확도 프로필 중 2위를 기록했습니다. 이러한 결과는 지식 증류가 과도한 계산 비용 없이 경쟁력 있는 성능을 달성함으로써 역사적 문서 처리를 위한 실용적이고 확장 가능한 솔루션을 제공한다는 것을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0