대규모 단백질 폴드 분류: 벤치마킹 및 사전 학습 (Protein Fold Classification at Scale: Benchmarking
요약
단백질 폴드 분류를 위한 대규모 비중복 벤치마크인 TEDBench를 소개하고, 기존 모델들의 한계를 극복하기 위한 새로운 자기지도 학습 프레임워크인 MiAE를 제안합니다. MiAE는 높은 마스킹 비율과 SE(3)-불변 인코더를 사용하여 경량화된 구조로도 최신 베이스라인을 뛰어넘는 뛰어난 성능과 확장성을 보여줍니다.
핵심 포인트
- AlphaFold 구조를 기반으로 구축된 대규모 단백질 폴드 분류 벤치마크 TEDBench 공개
- 자기지도 학습 프레임워크인 Masked Invariant Autoencoders (MiAE) 제안
- 최대 90%의 높은 마스킹 비율과 SE(3)-불변 인코더를 활용한 효율적인 구조 표현 학습
- 기존 최신 모델(SOTA) 및 지도 학습 모델 대비 우수한 성능과 확장성 입증
- CATH v4.4 실험적 구조를 통한 AlphaFold 구조 외 데이터에 대한 전이 성능 검증
단백질 토폴로지 (Protein topology)를 분류하는 것은 생물학적 기능을 해독하는 데 필수적이지만, 중복을 피하는 대규모 벤치마크의 부족과 확장성이 떨어지는 모델들로 인해 진전이 더뎌지고 있습니다. 우리는 Encyclopedia of Domains (TED)와 Foldseek으로 클러스터링된 AlphaFold 구조로부터 구축된, 단백질 폴드 분류를 위한 대규모 비중복 벤치마크인 TEDBench를 소개합니다. 우리는 TEDBench에서 현재의 단백질 표현 학습 (Protein representation learning) 방법들이 매우 큰 모델을 필요로 하거나 강력한 성능을 내지 못한다는 것을 보여줍니다. 이 과제를 해결하기 위해, 우리는 단백질 구조 표현 학습을 위한 자기지도 학습 (Self-supervised learning) 프레임워크인 Masked Invariant Autoencoders (MiAE)를 제안합니다. MiAE는 최대 90%에 달하는 매우 높은 마스킹 비율 (Masking ratio)을 사용하며, $\mathrm{SE(3)}$-불변 인코더 ($\mathrm{SE(3)}$-invariant encoder)와 잠재 표현 (Latent representation) 및 마스크 토큰 (Mask tokens)으로부터 백본 좌표 (Backbone coordinates)를 재구성하는 경량 디코더 (Lightweight decoder)를 사용합니다. MiAE는 확장성이 뛰어나며 TEDBench에서 지도 학습 (Supervised) 모델 및 최신 베이스라인 (State-of-the-art baselines)보다 우수한 성능을 보이며, 단백질 폴드 분류를 위한 강력한 레시피를 확립합니다. AlphaFold 구조를 넘어선 전이 성능을 테스트하기 위해, 우리는 CATH v4.4의 실험적 구조들로 구성된 큐레이션 데이터셋을 통해 추가적인 벤치마킹을 수행했습니다. TEDBench는 https://github.com/BorgwardtLab/TEDBench 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기