OceanPile: 해양 기반 모델용 대규모 다중 모달 코퍼스
요약
OceanPile은 소나(sonar), 수중 이미지, 과학적 텍스트 등 다양한 해양 데이터를 통합하여 구축된 대규모 다중 모달 코퍼스입니다. 이 데이터셋은 지식 그래프 기반의 파이프라인을 통해 OceanCorpus, OceanInstruction, OceanBench와 같은 세 가지 핵심 구성 요소를 생성합니다. 이를 통해 해양 환경에 특화된 AI 모델 학습 및 평가를 위한 강력한 자원을 제공합니다.
핵심 포인트
- 해양Pile은 소나 데이터, 수중 이미지, 과학적 텍스트 등 다양한 모달리티의 데이터를 통합했습니다.
- 지식 그래프 기반 파이프라인을 사용하여 데이터셋을 체계적으로 구축하고 정제했습니다.
- 최종 결과물로 OceanCorpus (데이터), OceanInstruction (명령어/튜닝), OceanBench (평가 벤치마크)를 제공합니다.
- 해양 환경에 특화된 AI 모델 개발 및 연구를 위한 필수적인 자원입니다.
OceanPile 는 소나 (sonar), 수중 이미지 (underwater imagery), 과학적 텍스트를 지식 그래프 (knowledge graph) 안내 파이프라인을 통해 통합하여 OceanCorpus, OceanInstruction, OceanBench 를 생성하는 해양 기반 모델용 대규모 다중 모달 코퍼스입니다.
논문: https://huggingface.co/papers/2605.00877
...
컬렉션: https://huggingface.co/collections/zjunlp/oceanpile
...
프로젝트: http://data.oceangpt.blue/en/
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기