arXiv논문2026. 05. 20. 11:55

MSAlign: 대사체 식별을 위한 분자 및 질량 분석 스펙트럼 파운데이션 모델의 정렬

요약

MSAlign은 질량 분석(Mass Spectrometry) 스펙트럼과 분자 구조 간의 정렬을 통해 대사체를 식별하는 새로운 파운데이션 모델 정렬 프레임워크입니다. DreaMS와 ChemBERTa라는 두 개의 동결된 모델을 경량 MLP 투영과 대조 학습을 통해 공유된 표현 공간으로 정렬하여 기존 방식보다 뛰어난 성능을 보입니다. 또한, 분자 검색 연구에서 발생하는 데이터 누출과 도메인 변화 사이의 트레이드오프 문제를 정량적으로 분석하고 재현 가능한 연구를 위한 통합 구현을 제공합니다.

핵심 포인트

DreaMS(스펙트럼)와 ChemBERTa(분자) 모델을 정렬하는 경량화된 MSAlign 프레임워크 제안
후보 기반 대조 목적 함수를 사용하여 기존 벤치마크 성능을 일관되게 상회
분자 검색 태스크에서 데이터 누출(Data Leakage)과 도메인 변화(Domain Shift) 간의 관계를 정량적으로 분석
연구 재현성을 위해 데이터셋, 분할 방식, 모델 구현을 모두 공개

질량 분석 (Mass Spectrometry) 데이터로부터 대사체, 즉 저분자 화합물을 정확하게 식별하는 것은 신약 개발, 환경 분석 및 임상 연구 분야에서 폭넓게 응용되는 대사체학 (Metabolomics)의 핵심 과제로 남아 있습니다. 본 연구에서는 후보 분자 세트가 주어졌을 때 MS/MS 스펙트럼으로부터 대사체의 화학 구조를 복원하는 분자 검색 (Molecule Retrieval) 태스크를 다룹니다. 최근 MassSpecGym 및 Spectraverse와 같은 벤치마크 데이터셋의 출시로 새로운 머신러닝 (Machine Learning) 접근 방식의 개발이 상당히 가속화되었으나, 데이터 전처리 파이프라인의 복잡성과 통합된 구현 방식의 부재로 인해 방법론과 결과를 재현하고 비교하는 데 어려움이 있습니다. 본 연구는 세 가지 기여를 합니다. 첫째, 표현 정렬 (Representation Alignment) 및 대조 학습 (Contrastive Learning)에 기반한 최근의 접근 방식들을 아우르는 통합 프레임워크를 제안합니다. 둘째, 시각-언어 모델 (Vision-Language Models)의 멀티모달 정렬 (Multimodal Alignment)에서 영감을 얻은 MSAlign을 소개합니다. MSAlign은 후보 기반 대조 목적 함수 (Candidate-based Contrastive Objective)로 학습된 경량 MLP 투영 (MLP Projections)을 통해 두 개의 동결된 파운데이션 모델 (질량 스펙트럼을 위한 DreaMS 및 분자를 위한 ChemBERTa)을 정렬함으로써 공유된 표현 공간을 학습합니다. MSAlign은 구현이 간단하고 학습 속도가 빠르며, 모든 벤치마크에서 기존 접근 방식들을 일관되게 능가합니다. 셋째, 오랫동안 지속된 평가 문제인 분자 검색에서의 데이터 분할 (Data Splitting) 전략이 데이터 누출 (Data Leakage)과 도메인 변화 (Domain Shift) 사이에서 암묵적으로 트레이드오프 (Trade-off)를 발생시킨다는 점을 조사합니다. 우리는 분포 변화 (Distribution Shift)의 정량적 척도를 도입하여 이 긴장 관계를 공식화하고, 이를 사용하여 기존 벤치마크의 분할 전략을 평가합니다. 재현 가능한 연구를 지원하기 위해 모든 데이터셋, 분할 방식, 후보 세트, 그리고 MSAlign 및 베이스라인 (Baselines)의 통합 구현을 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MSAlign: 대사체 식별을 위한 분자 및 질량 분석 스펙트럼 파운데이션 모델의 정렬

요약

핵심 포인트

댓글