본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 19:44

SC-Taxo: 의미 일관성 제약 하에 대형 언어 모델을 활용한 계층적 분류 체계 생성

요약

과학 지식의 폭발적인 증가로 인해 효율적인 분류 체계 구축이 중요해졌으나, 기존 방법들은 계층적 의미 일관성 부족 문제를 겪었습니다. 본 논문은 대형 언어 모델(LLMs)을 활용하여 'SC-Taxo' 프레임워크를 제안합니다. SC-Taxo는 하향식 추상화와 상향식 의미 제약을 결합하고 동료 수준의 의미 의존성을 포착함으로써, 구조적이고 의미적으로 일관된 계층적 분류 체계를 생성하는 것을 목표로 합니다.

핵심 포인트

  • 과학 문헌 증가에 따른 효율적인 지식 조직 및 접근의 필요성 증대.
  • 기존 분류 체계는 계층 간 구조적 불일치와 의미적 오정합 문제를 겪음.
  • SC-Taxo 프레임워크는 LLMs를 활용하여 '계층적 의미 일관성'을 보장함.
  • 양방향 제목 생성 기제(하향식 추상화 + 상향식 제약)와 동료 수준 의존성 포착을 통해 분류 체계를 개선함.
  • 다양한 벤치마크 및 교차 언어적 평가를 통해 높은 일반화 능력과 성능을 입증함.

과학 문헌은 예전보다 훨씬 빠르게 확장되고 있어, 해당 분야의 지식을 효율적으로 조직하고 접근하는 것이 점점 더 어려워지고 있습니다. 고품질의 과학 분류 체계는 연구 분야의 구조적이고 계층적인 표현을 제공하여 문헌 탐색과 주제 탐색을 용이하게 하고, 추세 분석, 아이디어 생성, 정보 검색 등 하류 응용 프로그램을 가능하게 합니다. 그러나 기존의 분류 체계 생성 방법은 계층적 수준 간 구조적 불일치와 의미적 오정합 (semantic misalignment) 을 겪는 경우가 많습니다. 실증 분석을 통해 이러한 문제들은 대부분 계층적 의미 일관성 (hierarchical semantic consistency) 모델링의 부족에서 비롯됨을 발견했습니다. 이 한계를 해결하기 위해, 대형 언어 모델 (LLMs) 을 계층 인식 정제 단계 (hierarchy-aware refinement stages) 로 활용하여 의미 일관성을 보장하는 의미 일관성 분류 체계 생성 (SC-Taxo) 프레임워크를 제안합니다. 구체적으로 SC-Taxo 는 하향식 추상화 (bottom-up abstraction) 와 상향식 의미 제약 (top-down semantic constraint) 을 동시에 수행하는 양방향 제목 생성 기제를 도입하며, 또한 수평적 일관성을 향상시키기 위해 동료 수준 간 의미 의존성 (peer-level semantic dependencies) 을 추가로 포착합니다. 여러 벤치마크 데이터셋에 대한 실험은 계층 정렬과 제목 품질의 일관된 개선 결과를 보여주며, 중국 과학 문헌에 대한 추가 평가는 그 교차 언어적 일반화 능력의 견고함을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0