arXiv논문2026. 06. 24. 11:37

적을수록 많다: 과학적 요약(Scientific Summarization)을 위한 품질 인식 학습 데이터 선택

요약

과학적 긴 문서 요약을 위한 대규모 생물 의학 데이터셋을 구축하고, 저자가 작성한 초록의 품질을 분석한 연구입니다. 품질 인식을 기반으로 한 데이터 선택이 무작위 샘플링보다 학습 효율과 사실성을 높일 수 있음을 입증했습니다.

핵심 포인트

188만 개의 PMC 논문을 포함한 대규모 생물 의학 데이터셋 공개
저자 작성 초록의 품질과 원문 정렬 상태 분석
품질 기반 데이터 선택이 무작위 샘플링 대비 우수한 성능 제공
사실성 중심 지표에서 고품질 서브셋의 효율성 증명

과학적 긴 문서 요약(Scientific long-document summarization) 데이터셋은 저자가 작성한 초록(abstracts)을 골드 레퍼런스 요약(gold reference summaries)으로 취급하는 경우가 많지만, 그 품질과 원문 기사와의 정렬(alignment) 상태는 제각각입니다. 동시에, 공개적으로 사용 가능한 과학적 요약 데이터셋은 현대의 긴 문맥 모델(long-context models)을 위한 규모와 구조 측면에서 여전히 제한적입니다. 본 연구에서는 다음과 같은 두 가지 과제를 해결하고자 합니다. a) 188만 개의 PMC 논문을 포함하는, 긴 문서 요약을 위한 가장 큰 규모의 생물 의학 및 생명 과학 데이터셋 중 하나를 구축하여 공개하며, b) 소스 기반(source-grounded) 및 모델 기반(model-based) 지표를 사용하여 저자가 작성한 초록의 레퍼런스 품질을 분석합니다. 우리는 저자가 작성한 초록이 전체 기사와의 정렬 상태가 다양하며, 이러한 품질 신호가 학습 데이터 선택(training-data selection)을 안내할 수 있음을 보여줍니다. 선택된 고품질 서브셋(subsets)으로 학습하는 것은 동일한 학습 규모에서 무작위 샘플링(random sampling)보다 우수한 성능을 보이며, 사실성 중심 지표(factuality-oriented metrics)에서는 더 큰 규모의 무작위 서브셋과 대등하거나 이를 능가할 수 있습니다. 우리의 연구 결과는 레퍼런스 품질이 과학적 요약에서 중요한 요소이며, 품질 인식 데이터 선택(quality-aware data selection)이 학습 효율성을 향상시킬 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

적을수록 많다: 과학적 요약(Scientific Summarization)을 위한 품질 인식 학습 데이터 선택

요약

핵심 포인트

댓글