본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 10. 12:15

단백질 특성 예측을 위한 유연한 커널 (Flexible Kernels)

요약

희소한 실험 데이터 환경에서 단백질의 결합 친화도와 열안정성을 예측하기 위한 새로운 서열 커널을 제안합니다. 이 커널은 가우시안 프로세스를 통해 데이터 효율적인 모델을 제공하며, 파운데이션 모델 임베딩보다 우수한 성능을 보입니다.

핵심 포인트

  • 진화적 치환 행렬과 국소 선형성을 활용한 서열 커널 도입
  • 파운데이션 모델 임베딩 대비 높은 데이터 효율성 입증
  • 구조 인식 치환 행렬을 통한 구조적 정보 통합 가능
  • 멀티태스크 학습 및 국소 지도 학습 대비 우수한 성능

단백질 설계 (Protein design) 응용 분야에서의 중요성에도 불구하고, 희소한 실험 데이터 (Sparse experimental data)로부터 결합 친화도 (Binding affinity) 및 열안정성 (Thermostability)과 같은 단백질 특성을 예측하는 것은 여전히 큰 과제로 남아 있습니다. 이에 따라, 우리는 진화적 치환 행렬 (Evolutionary substitution matrices)과 국소 선형성 (Local linearity)을 활용하는 일련의 서열 커널 (Sequence kernels)을 소개하며, 이를 통해 생성된 가우시안 프로세스 (Gaussian processes)가 단백질 특성 지형 (Protein property landscapes)에 대해 데이터 효율적인 모델을 제공하고, 파운데이션 모델 임베딩 (Foundation model embeddings)에 의존하는 대안들보다 빈번하게 우수한 성능을 보임을 입증합니다. 나아가, 사실상 구조 인식 치환 행렬 (Structure-aware substitution matrices)을 학습함으로써, 우리의 커널이 파운데이션 모델로부터 구조적 정보 (Structural information)를 용이하게 통합할 수 있음을 보여줍니다. 우리는 이러한 구조 조건부 커널 (Structure-conditioned kernels)이 여러 단백질 특성 지형에 걸친 멀티태스크 학습 (Multi-task learning)에 적합하며, 국소 지도 학습 (Local supervised learning) 방법들을 결정적으로 능가할 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0