본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 04. 13:20

BBOmix: 비지도 생물학적 표현 학습 (Unsupervised Biological Representation Learning)의

요약

생물학적 오믹스 데이터의 비지도 표현 학습을 위한 최초의 오픈 소스 벤치마크인 BBOmix를 소개합니다. 다양한 AE 아키텍처와 멀티오믹스 데이터를 활용하여 하이퍼파라미터 최적화(HPO) 방법론을 광범위하게 평가합니다.

핵심 포인트

  • 생물학적 데이터용 최초의 오픈 소스 정형 데이터 벤치마크 BBOmix 공개
  • 재구성 손실과 다운스트림 작업 성능 간의 상관관계 정량화
  • 싱글/멀티 피델리티 및 전이 학습 HPO 방법론에 대한 광범위한 평가
  • 대규모 비지도 HPO 연구의 접근성 민주화 및 엄격한 베이스라인 구축

고처리량 시퀀싱 (High-throughput sequencing)의 급격한 발전은 대규모의 고차원 오믹스 (Omics) 데이터셋을 생성했습니다. 딥 비지도 학습 (Deep unsupervised learning) 아키텍처, 특히 오토인코더 (Autoencoders, AEs)는 이 분야에서 차원 축소 (Dimensionality reduction) 및 표현 학습 (Representation learning)을 위해 점점 더 많이 사용되고 있습니다. 그러나 AE는 아키텍처 선택과 하이퍼파라미터 (Hyperparameters)에 매우 민감하며, 비지도 최적화 (Unsupervised optimization)는 일반적으로 재구성 손실 (Reconstruction loss)에 의존하는데, 이는 다운스트림 유용성 (Downstream utility)을 나타내는 불충분한 대리 지표 (Proxy)가 될 수 있습니다. 철저한 하이퍼파라미터 최적화 (Hyperparameter optimization, HPO)는 계산 비용이 많이 들기 때문에, 연구자들은 최적화되지 않은 기본 설정 (Default configurations)에 자주 의존하게 됩니다. 대규모 비지도 HPO 연구에 대한 접근성을 민주화하기 위해, 우리는 실제 생물학적 데이터에 대한 비지도 표현 학습을 위한 최초의 오픈 소스 정형 데이터 벤치마크인 $\textbf{BBOmix}$를 소개합니다. 우리의 벤치마크는 TCGA 및 SCHC 데이터셋의 4가지 AE 아키텍처와 7가지 멀티오믹스 (Multi-omics) 양상 (Modalities)에 걸쳐 105,000개의 평가를 포함합니다. 우리는 재구성 손실 (Reconstruction loss)과 다운스트림 작업 성능 (Downstream task performance) 사이의 상관관계를 정량화하고, 최첨단 싱글 피델리티 (Single-fidelity), 멀티 피델리티 (Multi-fidelity) 및 전이 학습 (Transfer learning) HPO 방법론에 대한 광범위한 평가를 제공하여, 비지도 생물학적 표현 학습 분야의 향후 연구를 위한 엄격한 베이스라인 (Baseline)을 구축합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0