BioMatrix: 304B 토큰으로 단백질, 분자, 언어를 읽는 단일 디코더

요약

BioMatrix는 304B 토큰을 학습한 디코더 전용 생물학적 파운데이션 모델입니다. 단백질, 분자, 언어를 하나의 공유된 토큰 공간으로 통합하여 80개 작업 중 77개에서 SOTA를 달성했습니다.

핵심 포인트

304B 토큰 규모의 서열, 구조, 언어 통합 학습
80개 생물학적 작업 중 77개에서 SOTA 달성
단일 디코더 아키텍처로 네이티브 멀티모달 생성 가능
분자와 단백질을 하나의 공유 토큰 공간으로 매핑

BioMatrix는 디코더 전용 (decoder-only) 생물학적 파운데이션 모델 (biological foundation model)로, 304B 토큰의 서열 (sequences), 구조 (structures), 언어 (language)를 학습한 후 80개 작업 중 77개에서 SOTA (State-of-the-Art)를 달성했습니다.

공개되지 않은 연구소에서 개발한 디코더 전용 (decoder-only) 모델인 BioMatrix는 분자 (molecules), 단백질 (proteins), 그리고 언어를 하나의 공유된 토큰 공간 (token space)으로 매핑합니다. 304B 토큰으로 학습된 이 모델은 80개의 생물학적 작업 중 77개에서 SOTA를 달성했습니다.

주요 사실 (Key facts)

학습 코퍼스 (training corpus)에 304B 토큰 포함.
서열 (sequences), 구조 (structures), 언어 (language)를 위한 디코더 전용 (decoder-only) 아키텍처.
80개의 생물학적 작업 중 77개에서 SOTA 달성.
네이티브 멀티모달 생성 (native multimodal generation) 기능을 갖춘 최초의 생물학적 모델.
연구소 및 파라미터 (parameter) 수는 공개되지 않음.

@HuggingPapers를 통해 발표된 BioMatrix는 서열 (sequences), 구조 (structures), 언어를 네이티브하게 읽고 생성하는 최초의 생물학적 파운데이션 모델 (biological foundation model)로 설명됩니다. 이 모델의 단일 디코더 전용 (single decoder-only) 아키텍처는 분자 (molecules)와 단백질 (proteins)을 하나의 공유된 토큰 공간 (shared token space)으로 매핑하여, 이전에는 별도의 인코더 (encoders)나 작업별 헤드 (task-specific heads)가 필요했던 모달리티 (modalities)들을 통합합니다.

304B 토큰의 학습 코퍼스 (training corpus)는 단백질 서열 (protein sequences), 분자 그래프 (molecular graphs), 그리고 자연어 (natural language)를 다루지만, 정확한 데이터 구성과 출처는 공개되지 않았습니다. 폴드 예측 (fold prediction), 결합 친화도 (binding affinity), 분자 특성 예측 (molecular property prediction) 등을 포함할 것으로 보이는 80개의 작업 벤치마크에서 BioMatrix는 77개 작업에서 SOTA를 달성했습니다. 이는 96%의 승률로, 통합된 토큰 공간 (unified token space)이 모달리티 (modalities) 간에 효과적으로 전이됨을 시사합니다.

단일 디코더 (single decoder)가 중요한 이유

대부분의 생물학적 모델은 인코더 전용 (encoder-only, 예: ESM-2) 또는 인코더-디코더 (encoder-decoder) 아키텍처를 사용합니다. GPT 스타일의 언어 모델에 의해 대중화된 디코더 전용 (decoder-only) 설계는 작업별 헤드 (task-specific heads) 없이도 서열 (sequences)과 구조 (structures)를 네이티브하게 생성할 수 있게 해줍니다. 이러한 아키텍처 선택은 모델이 자연어 프롬프트 (natural language prompts)를 조건으로 하여 새로운 단백질이나 분자를 자기회귀적 (autoregressively)으로 생성할 수 있음을 의미하며, 이는 인코더 전용 (encoder-only) 모델이 따라올 수 없는 능력입니다.

여전히 알 수 없는 것들

이번 발표에는 모델 크기, 파라미터 수 (parameter count), 학습 하드웨어, 그리고 정확한 벤치마크 정의에 대한 세부 정보가 부족합니다. 출판된 논문이나 코드 공개 없이는 주장된 SOTA (State-of-the-Art) 결과를 재현하는 것이 불가능합니다. 또한, 소스 트윗에는 BioMatrix의 배후에 있는 연구실이나 조직의 이름이 명시되지 않아 독립적인 검증이 어렵습니다. 304B 토큰 수는 생물학적 기준으로는 큰 규모이며 — ESM-2의 학습 데이터(약 250M 시퀀스)와 비교할 만한 수준입니다 — 하지만 토큰화 방식 (tokenization scheme)과 어휘 사전 크기 (vocabulary size)는 명시되지 않았습니다.

이전 연구와의 비교

ESM-2 (인코더 전용 (encoder-only), 3B 파라미터), ProtGPT2 (디코더 전용 (decoder-only), 738M 파라미터), 그리고 MolT5 (텍스트+분자를 위한 인코더-디코더 (encoder-decoder))와 같은 최근의 생물학적 파운데이션 모델 (biological foundation models)들은 각각 특정 하위 영역을 발전시켜 왔습니다. BioMatrix는 이 세 가지 양식 (modalities)을 모두 통합한다고 주장합니다. 만약 이것이 검증된다면, 이는 작업별 미세 조정 (task-specific fine-tuning) 없이도 신약 개발, 단백질 공학, 그리고 분자 생성을 수행할 수 있는 단일 모델을 향한 진전이 될 것입니다.

주목해야 할 점

Language Model Training and Inference: From Concept to Code

BioMatrix 배후의 연구실에서 발표할 프리프린트 (preprint) 또는 코드 공개를 주목하십시오. 만약 77/80 SOTA 주장이 독립적인 재현을 통해 유지된다면, 디코더 전용 (decoder-only) 생물학적 모델의 물결이 일 것으로 예상됩니다. 만약 60일 이내에 논문이 나타나지 않는다면, 해당 발표를 마케팅으로 간주하십시오.

원문은 gentic.news에 게시되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기