BioMatrix: 서열, 구조, 언어의 모달리티 매트릭스를 아우르는 포괄적인 생물학적 파운데이션 모델을 향하여
요약
BioMatrix는 분자 및 단백질의 서열, 구조, 자연어를 단일 디코더 아키텍처 내에서 통합하는 최초의 멀티모달 파운데이션 모델입니다. 별도의 어댑터 없이 단일 차기 토큰 예측 방식으로 모든 모달리티를 균일하게 처리하며, 다양한 생물학적 태스크에서 최첨단 성능을 입증했습니다.
핵심 포인트
- 서열, 구조, 자연어를 공유된 이산 토큰 공간으로 통합
- 외부 인코더나 어댑터 없는 단일 차기 토큰 예측 방식 채택
- Qwen3 기반 3,044억 개 토큰에 대한 지속적 사전 학습 수행
- 80개 태스크 중 77개에서 SOTA 또는 경쟁력 있는 성능 달성
우리는 단일 디코더 전용 (decoder-only) 아키텍처 내에서 분자와 단백질 모두를 위해 서열 (sequences), 구조 (structures), 자연어 (natural language)를 네이티브하게 통합하는 최초의 멀티모달 파운데이션 모델 (multimodal foundation model)인 BioMatrix를 선보입니다. 기존의 생물학적 파운데이션 모델들은 네이티브 멀티모달리티 (native multimodality)와 광범위한 엔티티 커버리지 (entity coverage)를 각각 별도로 추구해 왔습니다. 공유된 목적 함수 하에 여러 모달리티를 융합하는 모델들은 단일 엔티티 유형에 국한되어 있으며, 여러 엔티티 유형을 아우르는 모델들은 명시적인 구조적 모델링을 생략하거나, 모델이 읽을 수 있는 바로 그 모달리티를 네이티브하게 생성할 수 없는 어댑터 기반 (adapter-based) 설계에 의존합니다. BioMatrix는 분자 서열 (SMILES 및 SELFIES 표기법 모두 지원), 분자 구조, 단백질 서열, 단백질 구조, 그리고 자연어를 통합된 토큰화 (tokenization) 체계를 통해 공유된 이산 토큰 공간 (shared discrete token space)으로 매핑함으로써 이 격차를 해소하며, 이를 통해 외부 인코더 (external encoders), 프로젝션 어댑터 (projection adapters), 또는 모달리티별 출력 헤드 (modality-specific output heads) 없이도 단일 차기 토큰 예측 (next-token prediction) 목적 함수 하에서 모든 모달리티가 균일하게 소비되고 생성됩니다. Qwen3 언어 모델 (1.7B 및 4B)을 기반으로 구축된 BioMatrix는 일반 텍스트 및 도메인 특화 텍스트, 분자와 단백질의 서열 및 구조 뷰, 그리고 생체 분자 엔티티와 과학 텍스트를 교차시키고 분자-단백질 및 단백질-단백질 상호작용 데이터를 통해 서로 다른 엔티티를 연결하는 교차 모달 코퍼스 (cross-modal corpora)를 포함하는 3,044억 개의 토큰에 대해 지속적 사전 학습 (continual pretraining)을 수행했습니다. 6개 카테고리에 걸친 80개 태스크를 다루는 포괄적인 다운스트림 애플리케이션 (downstream applications) 세트 — 모달리티 내 및 모달리티 간의 단일 엔티티 및 다중 엔티티 이해 및 생성 태스크를 포함 — 에 대해 튜닝한 결과, BioMatrix는 80개 태스크 중 77개에서 최첨단 (state-of-the-art) 또는 경쟁력 있는 성능을 달성하였으며, 이는 단일한 네이티브 멀티모달 범용 모델 (natively multimodal generalist model)이 광범위한 생물학적 태스크에 걸쳐 전문화된 접근 방식과 효과적으로 대등하거나 이를 능가할 수 있음을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기