EmbGen: 재조립된 코퍼스를 활용한 학습 방법

소규모 지시어 미세 조정 (Instruction-tuned) 모델을 특화된 도메인에 적응시키는 작업은 흔히 엄선된 지시어-응답 (Instruction-response) 예시를 사용한 지도 미세 조정 (Supervised Fine-Tuning, SFT)에 의존하지만, 이를 대규모로 수집하는 데는 많은 비용이 듭니다. 도메인 코퍼스 (Corpus)로부터 교사 LLM (Teacher LLM)이 생성한 합성 학습 예시는 이러한 비용을 줄일 수 있지만, 기존의 파이프라인은 균질화된 출력을 생성할 수 있으며 문장 간 또는 문서 간의 의존성 (Cross-passage or cross-document dependencies)을 일관되게 포착하지 못합니다. 우리는 코퍼스를 엔티티-설명 (Entity-description) 쌍으로 분해하고, 임베딩 유사도 (Embedding similarity)로부터 추론된 의미론적 구조를 사용하여 이를 재조립한 다음, 클러스터 특화 시스템 프롬프트 (Cluster-specialized system prompts)와 함께 근접 (Proximity), 클러스터 내부 (Intra-cluster), 클러스터 간 (Inter-cluster) 샘플링을 통해 질의응답 (QA) 쌍을 생성하는 합성 데이터 생성 파이프라인인 EmbGen을 소개합니다. 우리는 고정된 토큰 예산 (500만 및 2,000만 토큰) 하에서 다양한 의미론적 이질성 (Semantic heterogeneity)을 가진 세 가지 데이터셋을 대상으로 EntiGraph, InstructLab, Knowledge-Instruct와 EmbGen을 비교 평가합니다. 평가는 어휘 중첩 지표 (Lexical overlap metrics), LLM-as-a-judge 루브릭, 그리고 사실적 정확도 (Factual Accuracy)와 완전성 (Completeness)을 결합한 복합 지표인 이진 정확도 (Binary Accuracy)를 사용합니다. EmbGen은 가장 이질성이 높은 데이터셋에서 가장 강력한 베이스라인 대비 500만 토큰 예산에서는 12.5%, 2,000만 토큰 예산에서는 88.9%의 이진 정확도 (Binary Accuracy) 향상을 보였으며, 이질성이 낮은 다른 데이터셋에서도 경쟁력 있는 성능을 유지했습니다.

Insights

EmbGen: 재조립된 코퍼스를 활용한 학습 방법

요약

핵심 포인트

댓글

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek