EmbGen: 재조립된 코퍼스를 활용한 학습 방법
요약
EmbGen은 도메인 코퍼스를 엔티티-설명 쌍으로 분해하고 의미론적 구조를 기반으로 재조립하여 고품질의 합성 학습 데이터를 생성하는 새로운 파이프라인입니다. 기존 합성 데이터 생성 방식이 가진 출력의 균질화 문제를 해결하기 위해 클러스터 특화 프롬프트와 다양한 샘플링 전략을 사용합니다. 실험 결과, EmbGen은 데이터의 의미론적 이질성이 높을수록 기존 베이스라인 대비 비약적인 성능 향상을 보여주었습니다.
핵심 포인트
- 코퍼스를 엔티티-설명 쌍으로 분해하고 임베딩 유사도를 통해 의미론적 구조를 재구성함
- 근접, 클러스터 내부, 클러스터 간 샘플링 및 클러스터 특화 시스템 프롬프트를 활용하여 데이터 다양성 확보
- 기존 합성 데이터 생성 방식의 한계인 출력의 균질화 및 문서 간 의존성 포착 문제를 개선
- 높은 의미론적 이질성을 가진 데이터셋에서 기존 방식 대비 최대 88.9%의 이진 정확도(Binary Accuracy) 향상 달성
소규모 지시어 미세 조정 (Instruction-tuned) 모델을 특화된 도메인에 적응시키는 작업은 흔히 엄선된 지시어-응답 (Instruction-response) 예시를 사용한 지도 미세 조정 (Supervised Fine-Tuning, SFT)에 의존하지만, 이를 대규모로 수집하는 데는 많은 비용이 듭니다. 도메인 코퍼스 (Corpus)로부터 교사 LLM (Teacher LLM)이 생성한 합성 학습 예시는 이러한 비용을 줄일 수 있지만, 기존의 파이프라인은 균질화된 출력을 생성할 수 있으며 문장 간 또는 문서 간의 의존성 (Cross-passage or cross-document dependencies)을 일관되게 포착하지 못합니다. 우리는 코퍼스를 엔티티-설명 (Entity-description) 쌍으로 분해하고, 임베딩 유사도 (Embedding similarity)로부터 추론된 의미론적 구조를 사용하여 이를 재조립한 다음, 클러스터 특화 시스템 프롬프트 (Cluster-specialized system prompts)와 함께 근접 (Proximity), 클러스터 내부 (Intra-cluster), 클러스터 간 (Inter-cluster) 샘플링을 통해 질의응답 (QA) 쌍을 생성하는 합성 데이터 생성 파이프라인인 EmbGen을 소개합니다. 우리는 고정된 토큰 예산 (500만 및 2,000만 토큰) 하에서 다양한 의미론적 이질성 (Semantic heterogeneity)을 가진 세 가지 데이터셋을 대상으로 EntiGraph, InstructLab, Knowledge-Instruct와 EmbGen을 비교 평가합니다. 평가는 어휘 중첩 지표 (Lexical overlap metrics), LLM-as-a-judge 루브릭, 그리고 사실적 정확도 (Factual Accuracy)와 완전성 (Completeness)을 결합한 복합 지표인 이진 정확도 (Binary Accuracy)를 사용합니다. EmbGen은 가장 이질성이 높은 데이터셋에서 가장 강력한 베이스라인 대비 500만 토큰 예산에서는 12.5%, 2,000만 토큰 예산에서는 88.9%의 이진 정확도 (Binary Accuracy) 향상을 보였으며, 이질성이 낮은 다른 데이터셋에서도 경쟁력 있는 성능을 유지했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기