arXiv논문2026. 06. 19. 11:56

FineREX: 인신매매 지식 그래프(Knowledge Graphs)를 위한 미세 조정된 NER-RE

요약

인신매매 네트워크 분석을 위해 법률 문서에서 개체 및 관계를 추출하는 FineREX 파이프라인을 제안합니다. 미세 조정된 LLM을 활용하여 범용 모델 대비 높은 정확도와 효율성을 달성했습니다.

핵심 포인트

NER 및 RE를 위해 미세 조정된 LLM 기반 파이프라인 구축
범용 베이스라인 대비 개체 F1-score 15.50% 향상
관계 F1-score 31.46% 향상 및 법률적 노이즈 감소
엔드 투 엔드 처리 시간 50.0% 단축
도메인 특화 미세 조정의 효율성 입증

법정 절차(Court proceedings)는 인신매매 네트워크에 관한 가치 있는 증거를 포함하고 있지만, 이러한 정보는 종종 비정형적이고 전문 용어가 가득한 법률 문서 속에 묻혀 있습니다. 거대 언어 모델 (LLMs)은 자동화된 정보 추출을 통해 지식 그래프 (Knowledge Graph) 구축을 지원할 수 있지만, 기존 방식들은 이 도메인에서 요구되는 개체(Entity) 및 관계(Relationship) 정의에 맞춤화되지 않은 범용 모델에 의존합니다. 우리는 명명된 개체 인식 (Named Entity Recognition, NER) 및 관계 추출 (Relationship Extraction, RE)을 위해 미세 조정된 (Fine-tuned) LLM을 중심으로 구축된 간소화된 지식 그래프 구축 파이프라인인 FineREX를 소개합니다. 512개의 텍스트 청크 (Text chunks)로 구성된 수동 주석 데이터셋을 사용하여, FineREX는 더 큰 규모의 범용 베이스라인 (Baseline)과 비교했을 때 개체 F1-score와 관계 F1-score에서 각각 15.50%와 31.46%의 절대적인 향상을 달성했습니다. 이러한 이점은 더 높은 품질의 지식 그래프로 이어져, 법률적 노이즈 (Legal noise)를 거의 절반으로 줄이고 긴 문서에서의 노드 중복 (Node duplication)을 17.78%에서 11.17%로 낮추었습니다. 문서 재작성 및 중복 추출 단계를 제거함으로써, FineREX는 엔드 투 엔드 (End-to-end) 처리 시간 또한 50.0% 단축했습니다. 우리의 결과는 도메인 특화 미세 조정 (Domain-specific fine-tuning)이 불법 네트워크 분석을 위한 지식 그래프 구축의 품질과 효율성을 모두 개선하면서, 더 큰 범용 모델을 실질적으로 능가할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

FineREX: 인신매매 지식 그래프(Knowledge Graphs)를 위한 미세 조정된 NER-RE

요약

핵심 포인트

댓글