본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 18. 11:01

합성 데이터를 활용한 증류를 통한 효율적인 금융 언어 이해

요약

금융 분야의 데이터 부족 문제를 해결하기 위해 합성 데이터를 활용한 지식 증류(distillation) 프레임워크를 제안합니다. 클러스터링 기반의 시드 선택을 통해 소형 모델이 최소한의 라벨링만으로도 높은 금융 감성 분석 성능을 달성할 수 있음을 입증했습니다.

핵심 포인트

  • 합성 데이터 기반 증류를 통한 금융 NLP 효율성 증대
  • 클러스터링 기반 시드 선택으로 데이터 대표성 확보
  • 저자원 환경에서 소형 모델의 도메인 적응 성능 최적화
  • 최소한의 인간 라벨링으로 교사 모델 수준의 성능 구현

대규모 지시 이행 모델(Large instruction-following models)은 강력하지만 배포 비용이 많이 듭니다. 특히 금융 분야에서는 기밀 유지 문제와 전문가 주석(annotation) 비용으로 인해 라벨링된 데이터가 제한적입니다. 우리는 대규모 지시 조정(instruction-tuned)된 교사(teacher) 모델로부터 소형 학생(student) 모델로 지식을 전달하는 합성 데이터 기반 증류(distillation)를 통해 금융 감성 분석(financial sentiment analysis)을 수행하는 효율적인 프레임워크를 제시합니다. 이 프레임워크는 소수의 실제 사례가 수집되어 수동으로 라벨링되는 저자원(low-resource) 환경을 위해 설계되었습니다. 그런 다음 프레임워크는 사례들을 클러스터링(clustering)하고, 이 클러스터를 사용하여 구조화된 퓨샷 프롬프팅(structured few-shot prompting)을 통해 합성 사례를 생성하기 위한 시드(seeds)를 선택합니다. 실험 결과, 클러스터링 기반의 시드 선택이 무작위 샘플링(random sampling)보다 더 대표성 있는 합성 데이터를 생성하며, 이를 통해 소형 모델이 최소한의 감독(supervision)만으로도 강력한 성능을 달성할 수 있음을 보여줍니다. 특히, 더 복잡하고 노이즈가 많은 텍스트 도메인에서 전체 합성-시드 코퍼스(synthetic-seed corpus)로 학습된 소형 모델은 공식적인 텍스트(formal text)에서 경쟁력을 유지하는 동시에 교사 모델의 성능을 능가하기까지 합니다. 이 프레임워크는 최소한의 인간 라벨링 노력으로 금융 NLP 분야에서 자원 효율적인 도메인 적응(domain adaptation)을 위한 실질적인 경로를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0