본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 24. 11:37

적을수록 많다: 과학적 요약(Scientific Summarization)을 위한 품질 인식 학습 데이터 선택

요약

과학적 긴 문서 요약을 위한 대규모 생물 의학 데이터셋을 구축하고, 저자가 작성한 초록의 품질을 분석한 연구입니다. 품질 인식을 기반으로 한 데이터 선택이 무작위 샘플링보다 학습 효율과 사실성을 높일 수 있음을 입증했습니다.

핵심 포인트

  • 188만 개의 PMC 논문을 포함한 대규모 생물 의학 데이터셋 공개
  • 저자 작성 초록의 품질과 원문 정렬 상태 분석
  • 품질 기반 데이터 선택이 무작위 샘플링 대비 우수한 성능 제공
  • 사실성 중심 지표에서 고품질 서브셋의 효율성 증명

과학적 긴 문서 요약(Scientific long-document summarization) 데이터셋은 저자가 작성한 초록(abstracts)을 골드 레퍼런스 요약(gold reference summaries)으로 취급하는 경우가 많지만, 그 품질과 원문 기사와의 정렬(alignment) 상태는 제각각입니다. 동시에, 공개적으로 사용 가능한 과학적 요약 데이터셋은 현대의 긴 문맥 모델(long-context models)을 위한 규모와 구조 측면에서 여전히 제한적입니다. 본 연구에서는 다음과 같은 두 가지 과제를 해결하고자 합니다. a) 188만 개의 PMC 논문을 포함하는, 긴 문서 요약을 위한 가장 큰 규모의 생물 의학 및 생명 과학 데이터셋 중 하나를 구축하여 공개하며, b) 소스 기반(source-grounded) 및 모델 기반(model-based) 지표를 사용하여 저자가 작성한 초록의 레퍼런스 품질을 분석합니다. 우리는 저자가 작성한 초록이 전체 기사와의 정렬 상태가 다양하며, 이러한 품질 신호가 학습 데이터 선택(training-data selection)을 안내할 수 있음을 보여줍니다. 선택된 고품질 서브셋(subsets)으로 학습하는 것은 동일한 학습 규모에서 무작위 샘플링(random sampling)보다 우수한 성능을 보이며, 사실성 중심 지표(factuality-oriented metrics)에서는 더 큰 규모의 무작위 서브셋과 대등하거나 이를 능가할 수 있습니다. 우리의 연구 결과는 레퍼런스 품질이 과학적 요약에서 중요한 요소이며, 품질 인식 데이터 선택(quality-aware data selection)이 학습 효율성을 향상시킬 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0