본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 11:52

EvoStruct: 단백질 언어 모델 적응을 통한 항체 CDR 설계를 위한 진화적 및 구조적 사전 지식의 결합

요약

EvoStruct는 항체 CDR 설계 시 발생하는 어휘 붕괴 문제를 해결하기 위해 단백질 언어 모델(PLM)의 진화적 지식과 E(3)-등변 GNN의 구조적 맥락을 결합한 새로운 프레임워크입니다. 점진적인 PLM 해제와 R-Drop 정규화 기법을 통해 기존 GNN 방식의 한계를 극복하고, CHIMERA-Bench에서 서열 회복률과 아미노산 다양성을 획기적으로 향상시켰습니다.

핵심 포인트

  • 기존 GNN 기반 CDR 설계 방식의 고질적인 문제인 어휘 붕괴(특정 아미노산 과잉 예측) 현상을 규명함
  • 고정된 PLM과 E(3)-등변 GNN을 교차 주의 어댑터(cross-attention adapter)로 연결하여 진화적 패턴과 3D 구조 정보를 통합함
  • 점진적인 PLM 해제 및 R-Drop 일관성 정규화 전략을 통해 설계 성능을 최적화함
  • 기존 GNN 베이스라인 대비 서열 회복률 16% 향상, 퍼플렉시티 43% 감소, 아미노산 다양성 2.3배 증가 달성

항체 상보성 결정 부위 (CDR, complementarity-determining region) 설계를 위한 등변 그래프 신경망 (Equivariant GNN) 방식은 가장 높은 서열 회복률 (sequence recovery)을 달성하지만, 심각한 어휘 붕괴 (vocabulary collapse) 문제를 겪습니다. 현재 가장 우수한 GNN 방식들은 타이로신 (tyrosine)이나 글리신 (glycine)과 같이 매우 적은 수의 아미노산만을 과도하게 예측하는 반면, 기능적으로 중요한 잔기 (residues)들은 무시합니다. 우리는 이러한 실패의 원인이 GNN 인코더가 제한된 구조적 데이터로부터 아미노산 분포를 처음부터 (de novo) 학습하면서, 진화 데이터베이스 (evolutionary databases)에 인코딩된 치환 패턴 (substitution patterns)을 버리기 때문임을 밝혀냈습니다. 이를 해결하기 위해, 우리는 고정된 (frozen) 단백질 언어 모델 (PLM, protein language model)과 E(3)-등변 GNN (E(3)-equivariant GNN)의 3D 구조적 맥락을 교차 주의 어댑터 (cross-attention adapter)를 통해 연결하는 EvoStruct를 제안합니다. 일반적인 단백질 설계를 위한 기존의 PLM-구조 어댑터와 달리, EvoStruct는 점진적인 PLM 해제 (unfreezing) 및 R-Drop 일관성 정규화 (consistency regularization)를 통해 CDR 설계에 특화된 어휘 붕괴 문제를 목표로 합니다. CHIMERA-Bench 데이터셋에서 EvoStruct는 여러 항체 설계 방법들 중 가장 높은 아미노산 회복률과 가장 낮은 퍼플렉시티 (perplexity)를 달성하였으며, 가장 우수한 GNN 베이스라인 대비 서열 회복률을 16% 향상시키고 퍼플렉시티를 43% 감소시켰습니다. 또한 아미노산 다양성을 2.3배 더 많이 회복하였으며, 실제 정답 (ground truth)과 가장 높은 결합 쌍 상관관계 (binding-pair correlation)를 보여주었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0