OntoLearner: 대규모 언어 모델(LLM)을 활용한 온톨로지 학습을 위한 모듈형 Python 라이브러리
요약
OntoLearner는 LLM을 활용하여 텍스트로부터 구조화된 지식 모델을 구축하는 모듈형 온톨로지 학습 프레임워크입니다. 22개 도메인의 데이터셋과 벤치마킹 인프라를 제공하며, 모델의 성능이 온톨로지의 구조적 복잡성에 따라 결정됨을 입증합니다.
핵심 포인트
- LLM 기반 온톨로지 학습을 위한 최초의 모듈형 교차 도메인 프레임워크 소개
- 22개 도메인, 180개 온톨로지 및 표준화된 벤치마킹 데이터셋 제공
- 모델의 한계는 크기가 아닌 온톨로지의 복잡성과 구조적 불일치에 있음
- 용어 유형화, 분류 체계 발견, 관계 추출 작업 지원
온톨로지 학습 (Ontology learning, OL)은 텍스트로부터 구조화된 지식 모델을 자동으로 구축하는 것을 목표로 하지만, 방법론, 도메인 및 평가 관행이 파편화되어 있어 발전이 정체되어 있습니다. 수십 년간의 연구에도 불구하고, OL은 체계적인 평가와 온톨로지 접근을 위한 공유 인프라가 부족한 실정입니다. 이러한 부재는 연구의 발전을 저해하고 연구를 파편화하여, OL의 핵심 과제들을 대부분 해결되지 않은 상태로 남겨두었습니다. 우리는 온톨로지 접근, 대규모 언어 모델 (Large Language Model, LLM) 기반 학습 파이프라인, 그리고 표준화된 벤치마킹을 통합하는 최초의 모듈형 교차 도메인 프레임워크인 OntoLearner를 소개합니다. OntoLearner는 22개 도메인에 걸친 180개의 기계 판독 가능 온톨로지를 공개하며, 세 가지 핵심 OL 작업인 용어 유형화 (term typing), 분류 체계 발견 (taxonomy discovery), 비분류 관계 추출 (non-taxonomic relation extraction)을 위해 train/dev/test 분할이 포함된 파이프라인 준비 완료 데이터셋을 제공합니다. 이 인프라를 사용하여 우리는 다양한 도메인과 작업에 걸쳐 22개의 검색 모델과 12개의 LLM을 평가하며 OL에 대한 대규모 실증 연구를 수행합니다. 연구 결과는 OL의 핵심 과제를 재정의하는 결론으로 수렴됩니다: 즉, 실패 모드는 모델의 크기나 아키텍처의 정교함이 아니라 온톨로지의 복잡성에 따라 확장된다는 것입니다. 주요 병목 현상은 모델의 능력이 아니라, 모델이 지식을 인코딩하는 방식과 온톨로지가 지식을 조직하는 방식 사이의 구조적 불일치입니다. 이러한 발견은 OntoLearner를 통해 가능해진 교차 도메인, 다중 작업 벤치마킹을 통해 효과적인 OL이 달성 가능하다는 것을 입증합니다. OntoLearner는 https://github.com/sciknoworg/OntoLearner/ 에서 오픈 소스 (MIT 라이선스)로 제공됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기