arXiv논문2026. 06. 18. 11:01

합성 데이터를 활용한 증류를 통한 효율적인 금융 언어 이해

요약

금융 분야의 데이터 부족 문제를 해결하기 위해 합성 데이터를 활용한 지식 증류(distillation) 프레임워크를 제안합니다. 클러스터링 기반의 시드 선택을 통해 소형 모델이 최소한의 라벨링만으로도 높은 금융 감성 분석 성능을 달성할 수 있음을 입증했습니다.

핵심 포인트

합성 데이터 기반 증류를 통한 금융 NLP 효율성 증대
클러스터링 기반 시드 선택으로 데이터 대표성 확보
저자원 환경에서 소형 모델의 도메인 적응 성능 최적화
최소한의 인간 라벨링으로 교사 모델 수준의 성능 구현

대규모 지시 이행 모델(Large instruction-following models)은 강력하지만 배포 비용이 많이 듭니다. 특히 금융 분야에서는 기밀 유지 문제와 전문가 주석(annotation) 비용으로 인해 라벨링된 데이터가 제한적입니다. 우리는 대규모 지시 조정(instruction-tuned)된 교사(teacher) 모델로부터 소형 학생(student) 모델로 지식을 전달하는 합성 데이터 기반 증류(distillation)를 통해 금융 감성 분석(financial sentiment analysis)을 수행하는 효율적인 프레임워크를 제시합니다. 이 프레임워크는 소수의 실제 사례가 수집되어 수동으로 라벨링되는 저자원(low-resource) 환경을 위해 설계되었습니다. 그런 다음 프레임워크는 사례들을 클러스터링(clustering)하고, 이 클러스터를 사용하여 구조화된 퓨샷 프롬프팅(structured few-shot prompting)을 통해 합성 사례를 생성하기 위한 시드(seeds)를 선택합니다. 실험 결과, 클러스터링 기반의 시드 선택이 무작위 샘플링(random sampling)보다 더 대표성 있는 합성 데이터를 생성하며, 이를 통해 소형 모델이 최소한의 감독(supervision)만으로도 강력한 성능을 달성할 수 있음을 보여줍니다. 특히, 더 복잡하고 노이즈가 많은 텍스트 도메인에서 전체 합성-시드 코퍼스(synthetic-seed corpus)로 학습된 소형 모델은 공식적인 텍스트(formal text)에서 경쟁력을 유지하는 동시에 교사 모델의 성능을 능가하기까지 합니다. 이 프레임워크는 최소한의 인간 라벨링 노력으로 금융 NLP 분야에서 자원 효율적인 도메인 적응(domain adaptation)을 위한 실질적인 경로를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

합성 데이터를 활용한 증류를 통한 효율적인 금융 언어 이해

요약

핵심 포인트

댓글