PubMed-Ophtha: 과학 문헌 기반 시력학 시각 언어 모델 훈련을 위한 오픈 소스 데이터셋
요약
PubMed-Ophtha는 PubMed Central의 오픈 액세스 논문에서 추출한 시력학(ophthalmology) 분야를 위한 대규모 고품질 이미지-텍스트 데이터셋입니다. 이 데이터셋은 15,842개의 논문에서 102,023쌍의 시력학 이미지와 상세 캡션 쌍으로 구성되어 있습니다. 기존 데이터셋과 달리, PubMed-Ophtha는 PDF에서 풀 해상도 이미지를 추출하고, 각 이미지를 패널 및 개별 요소로 정밀하게 분해하며, 영상 모달리티 및 주석 상태까지 체계적으로 메타데이터를 부여했습니다. 이로써 시력학 분야의 비전-언어 모델 개발에 필요한 재현 가능하고 풍부한 자원을 제공합니다.
핵심 포인트
- 시력학(Ophthalmology) 특화 대규모 데이터셋: PubMed Central 논문 기반으로 10만 개 이상의 이미지-캡션 쌍을 구축했습니다.
- 고품질의 정밀 분해 능력: PDF에서 풀 해상도 이미지를 추출하고, 이를 패널 및 개별 요소로 세분화하여 구조적 정보를 보존합니다.
- 풍부한 메타데이터 제공: 각 이미지에 영상 모달리티(예: OCT, Fundus)와 주석 여부 등의 상세한 메타데이터를 추가했습니다.
- 재현성 확보: 인간이 직접 주석한 기준 데이터와 전체 파이프라인을 공개하여 연구의 재현성을 극대화했습니다.
시각 언어 모델 (Vision-language models) 은 시력학 (ophthalmology) 분야에 상당한 가능성을 가지고 있지만, 그 개발은 여전히 희소한 대규모 고품질 이미지 텍스트 데이터셋에 의존합니다. 우리는 PubMed Central 의 15,842 개 오픈 액세스 논문에서 추출한 102,023 개의 시력학 이미지 캡션 쌍으로 구성된 계층적 데이터셋인 PubMed-Ophtha 를 소개합니다.
기존의 데이터셋과 달리, 이 데이터셋은 논문의 PDF 에서 직접 풀 해상도로 이미지를 추출하고 구성 패널 (panels), 패널 식별자, 개별 이미지로 분해합니다. 각 이미지는 영상 모달리티 (imaging modality) -- 색소막 촬영 (color fundus photography), 광간섭 단층촬영 (optical coherence tomography), 망막 영상 (retinal imaging), 또는 기타 -- 과 화살표와 같은 주석 표시의 존재를 나타내는 마크 상태 (mark status) 로 주석됩니다. 캡션은 두 단계 LLM 접근법을 사용하여 패널 수준 하캡션으로 분할되며, 인간 주석 데이터에서 평균 문장 BLEU 점수는 0.913 입니다.
패널 및 이미지 검출 모델의 mAP@0.50 은 각각 0.909 과 0.892 로, 이미지 추출의 중간 IoU 는 0.997 입니다. 재현성을 지원하기 위해 우리는 인간 주석된 기준 데이터 (human-annotated ground-truth data), 모든 훈련 모델, 그리고 전체 데이터셋 생성 파이프라인도 함께 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기