본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 17:49

사전 학습 분자 임베딩 거리를 활용한 리간드 기반 가상 스크리닝 및 분자 생성 고도화

요약

본 연구는 기존의 계산 비용이 높거나 특정 작업에 의존하는 분자 유사성 측정 방법의 한계를 극복하기 위해, 사전 학습된 분자 임베딩 거리(PED: pretrained embedding distance)를 효과적인 대안으로 제시한다. PED는 별도의 훈련 없이도 풍부한 구조 정보를 포착하며, 가상 스크리닝을 위한 분자 순위 매기기와 목표 지향적 분자 생성 유도 등 다양한 약물 개발 과정에서 높은 성능을 보였다. 이는 사전 학습된 분자 임베딩이 AI 기반 신약 개발에 확장 가능하고 강력한 유사성 측정 도구로 활용될 수 있음을 입증한다.

핵심 포인트

  • 사전 학습 임베딩 거리(PED)는 기존의 지문 기반 또는 3D 오버레이 방식보다 계산 효율적이며, 별도의 작업별 훈련이 필요 없다.
  • PED는 분자 유사성 측정에 있어 높은 성능을 보였으며, 이는 구조 정보를 효과적으로 포착함을 의미한다.
  • 가상 스크리닝에서의 분자 순위 매기기와 목표 지향적 분자 생성 유도(reward design) 모두에서 PED의 우수성을 입증했다.
  • 사전 학습된 분자 임베딩은 AI 기반 신약 개발 분야에 적용 가능한 범용적이고 확장성 높은 유사성 측정 도구이다.

분자 유사성 (molecular similarity) 은 가상 스크리닝 (virtual screening), 아날로그 검색 (analog searching), 목표 지향적 분자 생성 (goal-directed molecular generation) 과 같은 리간드 기반 약물 개발에서 핵심적인 역할을 수행합니다. 그러나 지문 기반 Tanimoto 계수 (fingerprint-based Tanimoto coefficients) 에서부터 3D 형태 오버레이 (3D shape overlays) 에 이르기까지 기존 유사성 측정 방법은 대규모에서는 계산 비용이 많이 들거나, 수동으로 제작된 분자 설명자 (hand-crafted molecular descriptors) 에 의존하는 경우가 많습니다. 반면, 유사성 인식 설계 (similarity-aware design) 를 위한 많은 딥러닝 접근법은 여전히 유사성 특화 감독 학습 (similarity-specific supervision) 이나 고비용 데이터 큐레이션 (costly data curation) 에 의존하여 타겟 간 일반성을 제한합니다. 본 연구에서는 사전 학습 분자 모델 (pretrained molecular models) 에서 직접 계산되며 특정 작업에 대한 훈련이 필요 없는 사전 학습 임베딩 거리 (PED: pretrained embedding distance) 를 효과적인 대안으로 제안합니다. 실험 결과는 PED 가 기존 유사성 지표와 뚜렷한 상관관계를 보이며, 가상 스크리닝을 위한 분자 순위 매기기 (ranking molecules for virtual screening) 와 보상 설계 (reward design) 를 통한 분자 생성 유도 (guiding molecular generation) 에서 모두 효과적으로 수행됨을 보여줍니다. 이러한 발견은 사전 학습된 분자 임베딩이 풍부한 구조 정보를 포착할 수 있으며, 현대 AI 지원 약물 개발에 유망하고 확장 가능한 유사성 측정 도구로 활용될 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0