그래프 제약 경로 선택을 통한 멀티홉(Multi-Hop) 학습 데이터 스케일링
요약
전문 문서에서 멀티홉 추론 데이터를 효율적으로 생성하기 위해 그래프 제약 경로 선택(GCSCS) 기법을 제안합니다. 기존 방식의 한계를 극복하여 데이터 합성 가능성을 높임으로써, 법률 코퍼스 기반 학습 시 모델 성능을 대폭 향상시켰습니다.
핵심 포인트
- 그래프 제약 조건을 통해 데이터 합성 시 발생하는 종단점 드리프트 방지
- 교사 모델의 역할을 경로 발견이 아닌 언어화로 분리하여 효율성 증대
- 사용 가능한 코퍼스 규모를 기존 대비 4.4배 확장 가능
- Qwen3-32B 모델의 법률 Token F1 점수를 21.66%에서 38.58%로 향상
전문적인 문서에 대한 구성적 추론 (compositional reasoning) 능력을 대규모 언어 모델 (LLM)에 부여하기 위해서는 대규모의 멀티홉 (multi-hop) 학습 데이터가 필요하지만, 이러한 데이터는 구조화된 소스를 기반으로 구축된 큐레이션된 벤치마크 외에는 거의 존재하지 않습니다. 주석이 없는 일반 텍스트에서 이를 직접 구축하기 위해, 기존 방식들은 단일 교사 모델 (teacher model)이 문서 내의 증거 경로 (evidence path)를 공동으로 발견하고 이를 질문-답변 쌍으로 언어화 (verbalize) 하도록 요청합니다. 그러나 이러한 방식은 문서가 반복적인 템플릿을 기반으로 구조화되어 있거나 조항 간의 상호 참조가 밀집된 경우 성능이 급격히 저하되는데, 이는 대부분의 실제 전문 코퍼스 (specialized corpora)가 갖는 특징입니다. 본 연구에서는 이 두 가지 작업을 분리합니다. 즉, 문맥적 키워드 중심점 (contextual keyword centroids)의 그래프 위에서 추론 경로를 오프라인으로 열거하고, 교사 모델은 사전 검증된 경로를 언어화할 때만 호출합니다. 이 그래프는 다섯 가지 기하학적 허용 제약 조건 (geometric admissibility constraints)을 강제하며, 우리는 Gram-matrix 논증을 통해 국소적 유사도 경계 (local similarity bounds)만으로는 종단점 드리프트 (endpoint drift)가 최대 ${\sim}91^{\circ}$까지 발생할 수 있으며, 상한 유사도 경계 (upper similarity bound)가 상용구 텍스트 (boilerplate text)로 형성된 밀집된 임베딩 클리크 (embedding cliques)를 벗어나기 위해 필수적임을 입증합니다. 동일한 규모의 어블레이션 (ablation) 실험을 통해 이 메커니즘을 분리해 본 결과, 동일한 학습 규모에서 제약이 있는 체인과 제약이 없는 체인은 구별할 수 없는 다운스트림 성능을 보였습니다. 전체 규모에서의 이득은 체인당 품질의 향상이 아니라 사용 가능한 코퍼스의 4.4배 확장에서 비롯되었습니다. 이는 본 설정에서 그래프 제약의 역할을 체인 콘텐츠의 개선이 아닌, 교사의 합성 가능성 (synthesizability)을 높이는 것으로 재정의합니다. CUAD 법률 계약 코퍼스 (legal contract corpus)에서 구축된 80K개의 예시로 Qwen3-32B를 파인튜닝 (Fine-tuning)한 결과, 폐쇄형 (closed-book) Token F1 점수가 21.66%에서 38.58%로 향상되었습니다. 저희는 코드를 https://github.com/hkgai-official/GCSCS 에서 공개하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기