본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 12:30

CORTEX: 온톨로지 코퍼스 그래프(Ontological Corpus Graph)를 통한 웹 규모 코퍼스의 고품질 교차 도메인 조직화

요약

Cortex는 웹 규모의 코퍼스를 체계적으로 조직화하기 위해 온톨로지 코퍼스 그래프(OCG)를 활용하는 새로운 프레임워크를 제안합니다. 3층 구조의 이종 구조를 통해 고품질 데이터 정제와 도메인 간 연관성을 확보하며, 이를 검증하기 위한 CortexBench를 함께 선보입니다.

핵심 포인트

  • 온톨로지 코퍼스 그래프(OCG)를 통한 구조적 지식 조직화
  • 콘텐츠, 온톨로지, 정렬 계층으로 구성된 3층 구조 프레임워크
  • 교차 도메인 검색 및 추론을 위한 CortexBench 벤치마크 제안
  • 24.14B 토큰 규모의 정제된 코퍼스 및 코드베이스 공개 예정

대규모 언어 모델(Large Language Models, LLM)의 지속적인 진화는 데이터 규모와 품질에 대한 요구를 가속화하고 있으며, 서로 다른 학습 단계가 점점 더 맞춤화된 데이터 요구 사항을 부과함에 따라 고품질 코퍼스(Corpora)의 체계적인 조직화가 필수적이 되고 있습니다. 기존의 코퍼스 구축 파이프라인은 결과물인 코퍼스를 평면적이고 차별화되지 않은 문서 컬렉션으로 제한하며, 체계적인 지식 조직화가 보편적으로 결여되어 있습니다. 본 논문에서는 웹 규모의 코퍼스 구축을 단순한 평면적 문서 필터링에서 구조화된 지식 조직화로 격상시키는 최초의 프레임워크인 Cortex를 제안합니다. Cortex는 온톨로지 코퍼스 그래프(Ontological Corpus Graph, OCG)를 통해 이를 수행하며, OCG는 품질이 정제된 콘텐츠 계층(content layer), LLM 기반 자동 진화를 통한 계층적 경량 온톨로지 계층(ontology layer), 그리고 임의의 분류학적 해상도에서 도메인 간 연관을 가능하게 하는 교차 도메인 정렬 계층(alignment layer)을 통합하는 3층 구조의 이종 구조(heterogeneous structure)입니다. 종합적인 실험을 통해 Cortex의 효과를 확인했습니다. 특히, 우리는 OCG를 활용하여 교차 도메인 검색 및 추론 벤치마크인 CortexBench를 합성하였으며, 8개의 최첨단 LLM(Frontier LLMs)을 대상으로 한 평가를 통해 품질 정제, 도메인 조직화 및 교차 도메인 데이터 합성의 효과를 검증했습니다. 우리는 전체 코드베이스, OCG가 포함된 24.14B 토큰 규모의 정제된 코퍼스, 그리고 CortexBench를 공개할 예정입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0