키워드 추출을 위한 학술 논문 멀티모달 데이터셋 구축
요약
텍스트, 이미지, 오디오를 포함하는 학술 논문 멀티모달 데이터셋을 구축하여 키워드 추출 성능을 연구합니다. 기존 텍스트 중심 방식의 한계를 극복하기 위해 다양한 모달리티의 정보를 융합하는 실험을 수행했습니다.
핵심 포인트
- 텍스트, 이미지, 오디오를 포함한 1,000개의 멀티모달 샘플 구축
- 다양한 모달리티 정보 융합이 키워드 추출 성능을 향상시킴
- 각 모달리티별 텍스트가 모델 내에서 뚜렷한 특성을 나타냄을 확인
지금까지 키워드 추출 (Keyword Extraction) 작업은 일반적으로 텍스트 데이터에만 의존해 왔습니다. 이미지 및 오디오 모달리티 (Modalities)의 시각적 세부 사항과 오디오 특징을 무시하는 것은 정보의 풍부함 측면에서 결핍을 초래하고 잠재적인 상관관계를 간과하게 만들며, 결과적으로 데이터의 표현 (Representations)을 학습하는 모델의 능력과 모델 예측의 정확도를 제한합니다. 또한, 현재 키워드 추출 작업을 위해 사용 가능한 멀티모달 데이터셋 (Multimodal Datasets)은 특히 부족한 실정이며, 이는 멀티모달 키워드 추출 작업에 관한 연구 진행을 더욱 저해하고 있습니다. 따라서 본 연구는 논문 텍스트, 이미지, 오디오 및 키워드를 각각 포함하는 1,000개의 샘플로 구성된 학술 논문 멀티모달 데이터셋을 구축합니다. 키워드 추출의 비지도 (Unsupervised) 및 지도 (Supervised) 학습 방식에 기반하여, 논문의 텍스트 데이터뿐만 아니라 이미지와 오디오에서 추출된 텍스트를 사용하여 실험을 수행합니다. 본 연구의 목적은 서로 다른 모달 정보 (Modal Information) 및 멀티모달 정보의 융합 (Fusion)에 따른 키워드 추출 작업의 성능 차이를 조사하는 것입니다. 실험 결과는 서로 다른 모달리티의 텍스트가 모델 내에서 뚜렷한 특성을 나타냄을 보여줍니다. 논문 텍스트, 이미지 텍스트 및 오디오 텍스트의 결합 (Concatenation)은 학술 논문의 키워드 추출 성능을 효과적으로 향상시킬 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기