다국어 공동 개체-관계 추출 파이프라인을 활용한 유럽 정치 엘리트 네트워크 매핑
요약
유럽 정치 엘리트 네트워크를 매핑하기 위해 다국어 공동 개체-관계 추출을 수행하는 오픈 웨이트 파이프라인을 제안합니다. LLM의 교차 언어 능력 한계를 극복하고 Wikidata 식별자 매핑과 MoE 모델을 활용해 시계열 지식 그래프를 구축합니다.
핵심 포인트
- 오픈 웨이트 기반의 모듈형 다국어 개체-관계 추출 파이프라인 제시
- Wikidata 매핑과 MoE 모델을 통한 고정밀 지식 그래프 구축
- 오스트리아 및 폴란드 사례를 통한 정치 네트워크 분석 검증
- 계산 사회 과학을 위한 복제 가능한 프레임워크 제공
정치 엘리트들이 공공 자원을 탈취하는 지대 추구 연합(rent-seeking coalitions)을 형성하는지, 아니면 거버넌스를 유지하는 시민 네트워크를 형성하는지는 비교 정치학의 핵심 질문입니다. 그러나 이러한 복잡하고 비공식적이며 대립적인 유대 관계를 대규모로 관찰하기 위해서는 역사적으로 집중적인 수동 코딩이 필요했으며, 자동화된 텍스트 데이터(text-as-data) 방식은 주로 단순한 공기(co-occurrence) 현상에 국한되어 왔습니다. 최근의 대규모 언어 모델 (LLM) 접근 방식은 발전 방향을 제시하지만, 종종 독점적인 API에 의존하고, 교차 언어 능력(cross-lingual capability)이 부족하며, 확장 가능한 개체 해소(entity resolution)에 어려움을 겪습니다. 본 연구에서는 방대한 비정형 뉴스 코퍼스로부터 부호화된 시계열 지식 그래프(signed, temporal knowledge graphs)를 구축하는 다국어 공동 개체-관계 추출 (joint entity-relation extraction)을 위한 모듈형의 완전한 오픈 웨이트 (open-weight) 파이프라인을 제시합니다. 이 파이프라인은 스팬 기반 개체명 인식 (NER, span-based named-entity recognition)과 언급(mention)을 언어 독립적인 Wikidata 식별자로 매핑하는 3단계 연결 캐스케이드 (linking cascade)를 결합합니다. 그다음, 고처리량의 온톨로지 제약 혼합 전문가 (mixture-of-experts, MoE) 모델이 가이드 디코딩 (guided decoding)을 사용하여 도메인 온톨로지에 기반한 방향성 있고 부호화된 관계를 추출합니다. 3,491개의 관계로 구성된 골드 표준 (gold standard)에 대한 전면적인 스팟 체크 결과, 높은 텍스트 정확도(엄격한 기준 68.2%에서 완화된 기준 93.7%)를 보여주었습니다. 두 가지 대규모 사례 연구를 통해 공공 기록에 근거하여 파이프라인을 검증했습니다. 오스트리아의 경우, 한 정당의 전체 생애 주기를 재구성하여 내부 분열 시점을 파악하고, 인력이 후속 파벌로 이동하거나 법원 유죄 판결을 받는 과정을 추적했습니다. 폴란드 코퍼스에서는 국영 기업 후원 관계의 중첩된 경제 및 거버넌스 네트워크를 밝혀냈으며, 이와 동시에 양극화된 시민 플랫폼 (Platforma Obywatelska, PO)과 법과 정의 (Prawo i Sprawiedliwość, PiS) 양당 체제의 구조적으로 균형 잡힌 부호화된 갈등 네트워크를 발견했습니다. 가공되지 않은 다국어 텍스트와 구조화된 관계형 데이터를 연결함으로써, 우리의 프레임워크는 국가 간 실증적 계산 사회 과학 (computational social science)을 위한 강력하고 복제 가능한 토대를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기