이질적 코퍼스로부터의 용어 중심 계층 구조 유도 (Term-Centric Hierarchy Induction from Heterogeneous
요약
이질적인 텍스트 소스로부터 지식을 해석 가능한 계층 구조로 조직화하는 용어 중심(Term-centric) 프레임워크를 제안합니다. 문서 수준의 표현 대신 자동 용어 추출과 공유 표현 공간을 활용하여 교차 소스 간의 일관성을 높였습니다.
핵심 포인트
- 이질적 코퍼스에서 확장 가능한 용어 중심 계층 구조 유도 프레임워크 제안
- 자동 용어 추출을 통한 강력한 교차 소스 정렬 및 표현 공간 매핑
- 도메인 사전 지식과 데이터 기반 클러스터링의 통합
- 100만 개 이상의 문서 벤치마크를 통해 기존 베이스라인 대비 성능 입증
다양한 텍스트 소스로부터 지식을 해석 가능한 계층 구조로 조직화하는 것은 정책 분석, 혁신 모니터링, 탐색적 도메인 매핑과 같은 작업에 있어 매우 중요합니다. 기존의 분류 체계 유도 (Taxonomy Induction) 방법들은 지식 조직에 관련 있는 특정 도메인 개념보다는 문서 전체를 포착하는 문서 수준의 표현 (Document-level representations)에 의존하는 경향이 있으며, 이는 이질적인 소스 전반에 걸쳐 일반화하는 능력을 제한합니다. 우리는 대규모 문서 컬렉션으로 확장 가능한, 이질적 코퍼스 (Heterogeneous corpora)로부터 계층적 분류 체계를 유도하기 위한 용어 중심 (Term-centric) 프레임워크를 제안합니다. 우리의 접근 방식은 자동 용어 추출 (Automatic term extraction)을 사용하여 다양한 소스의 문서들을 공유된 표현 공간 (Shared representation space)으로 매핑하며, 이를 통해 강력한 교차 소스 정렬 (Cross-source alignment)을 가능하게 합니다. 이러한 표현을 바탕으로, 우리는 도메인 사전 지식 (Domain priors)과 데이터 기반 클러스터링 (Data-driven clustering)을 통합하는 해석 가능한 계층 구조를 구축합니다. 100만 개 이상의 문서를 포함하는 새로운 영어 및 독일어 다중 소스 벤치마크에서의 실험을 통해, 우리의 방법이 텍스트 및 요약 기반 베이스라인 (Baselines)보다 교차 소스 일관성 (Cross-source coherence)과 계층 품질을 향상시킨다는 것을 입증했습니다. 독일 지역 혁신 분석에 대한 사례 연구는 기술 지형 매핑 (Technology landscape mapping)을 위한 실질적인 유용성을 추가로 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기