본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 16:31

OpenHealth Lake: 보건 의료 애플리케이션을 위한 데이터 레이크하우스 (Data Lakehouse) 플랫폼 설계 및 테스트

요약

OpenHealth Lake는 생물 정보학 및 보건 과학 분야의 방대한 이질적 데이터를 관리하기 위해 설계된 데이터 레이크하우스 플랫폼입니다. 데이터 연합 및 FAIR 원칙을 기반으로 하며, 오픈 API와 Python/R 패키지를 통해 다양한 사용자 인터페이스를 제공합니다. 사용자 연구를 통해 시스템의 사용 가능성과 유용성을 입증하였으며, 조직의 요구에 따라 클라우드 또는 자체 호스팅 방식으로 유연하게 확장할 수 있습니다.

핵심 포인트

  • 데이터 레이크하우스 아키텍처와 데이터 연합 기술을 활용한 보건 의료 데이터 관리
  • FAIR 원칙을 준수하여 데이터의 재사용성과 상호 운용성 확보
  • Open API, Python 및 R 패키지를 지원하여 다양한 기술 배경의 사용자 접근성 강화
  • 클라우드 및 자체 호스팅 환경 모두 지원하는 높은 적응성과 확장성 제공

생물 정보학 (Bioinformatics) 및 보건 과학 (Health sciences)과 같이 방대한 이질적 데이터 세트 (Heterogeneous datasets)를 지속적으로 생성하는 분야에서 데이터 관리는 복잡한 과제가 될 수 있습니다. 협력적인 글로벌 보건 이니셔티브 (Global health initiatives)의 맥락에서, 영향력 있는 연구를 지원하기 위해서는 데이터의 안전한 저장과 공유가 매우 중요합니다. 그러나 통합된 데이터 관리 플랫폼의 부재는 이러한 이니셔티브 내에서 효율적인 데이터 교환 및 거버넌스 (Governance)를 어렵게 만듭니다. 본 논문에서는 데이터 레이크하우스 (Data lakehouse) 아키텍처, 데이터 연합 (Data federation), 그리고 FAIR 원칙 (FAIR principles)을 기반으로 한 데이터 관리 프로토타입 플랫폼인 OpenHealth Lake의 설계 과정을 소개합니다. 이 플랫폼은 이전에 발표된 연구에서 식별된 시스템 요구 사항을 가이드로 삼고 기존 문헌의 통찰력을 보완하여 오픈 소스 (Open-source) 도구들을 사용하여 설계되었습니다. 현재의 프로토타입 플랫폼은 사용자 친화적인 웹사이트, 오픈 API (Open API), Python 및 R 패키지를 포함하고 있어 사용자가 다양한 방식으로 플랫폼과 상호 작용할 수 있도록 합니다. 다양한 기술적 배경을 가진 참가자들을 포함한 사용자 연구를 통해, 우리는 제안된 데이터 관리 프로토타입이 사용 가능성 (Usable)과 유용성 (Useful)을 모두 갖추었음을 보여주었습니다. 우리의 프로토타입 설계는 어떤 조직에서도 사용할 수 있는 레이크하우스 시스템의 적응성 (Adaptability), 확장성 (Scalability), 그리고 재현성 (Reproducibility)을 보여줍니다. 이는 조직이 클라우드 기반 (Cloud-based) 또는 자체 호스팅 (Self-hosted) 저장소 선택을 포함하여, 각자의 특정 요구 사항과 자원에 맞게 데이터 관리 시스템을 맞춤화할 수 있도록 하는 유연하고 보완적인 접근 방식으로 설계되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0