arXiv논문2026. 04. 28. 17:49

사전 학습 분자 임베딩 거리를 활용한 리간드 기반 가상 스크리닝 및 분자 생성 고도화

요약

본 연구는 기존의 계산 비용이 높거나 특정 작업에 의존하는 분자 유사성 측정 방법의 한계를 극복하기 위해, 사전 학습된 분자 임베딩 거리(PED: pretrained embedding distance)를 효과적인 대안으로 제시한다. PED는 별도의 훈련 없이도 풍부한 구조 정보를 포착하며, 가상 스크리닝을 위한 분자 순위 매기기와 목표 지향적 분자 생성 유도 등 다양한 약물 개발 과정에서 높은 성능을 보였다. 이는 사전 학습된 분자 임베딩이 AI 기반 신약 개발에 확장 가능하고 강력한 유사성 측정 도구로 활용될 수 있음을 입증한다.

핵심 포인트

사전 학습 임베딩 거리(PED)는 기존의 지문 기반 또는 3D 오버레이 방식보다 계산 효율적이며, 별도의 작업별 훈련이 필요 없다.
PED는 분자 유사성 측정에 있어 높은 성능을 보였으며, 이는 구조 정보를 효과적으로 포착함을 의미한다.
가상 스크리닝에서의 분자 순위 매기기와 목표 지향적 분자 생성 유도(reward design) 모두에서 PED의 우수성을 입증했다.
사전 학습된 분자 임베딩은 AI 기반 신약 개발 분야에 적용 가능한 범용적이고 확장성 높은 유사성 측정 도구이다.

분자 유사성 (molecular similarity) 은 가상 스크리닝 (virtual screening), 아날로그 검색 (analog searching), 목표 지향적 분자 생성 (goal-directed molecular generation) 과 같은 리간드 기반 약물 개발에서 핵심적인 역할을 수행합니다. 그러나 지문 기반 Tanimoto 계수 (fingerprint-based Tanimoto coefficients) 에서부터 3D 형태 오버레이 (3D shape overlays) 에 이르기까지 기존 유사성 측정 방법은 대규모에서는 계산 비용이 많이 들거나, 수동으로 제작된 분자 설명자 (hand-crafted molecular descriptors) 에 의존하는 경우가 많습니다. 반면, 유사성 인식 설계 (similarity-aware design) 를 위한 많은 딥러닝 접근법은 여전히 유사성 특화 감독 학습 (similarity-specific supervision) 이나 고비용 데이터 큐레이션 (costly data curation) 에 의존하여 타겟 간 일반성을 제한합니다. 본 연구에서는 사전 학습 분자 모델 (pretrained molecular models) 에서 직접 계산되며 특정 작업에 대한 훈련이 필요 없는 사전 학습 임베딩 거리 (PED: pretrained embedding distance) 를 효과적인 대안으로 제안합니다. 실험 결과는 PED 가 기존 유사성 지표와 뚜렷한 상관관계를 보이며, 가상 스크리닝을 위한 분자 순위 매기기 (ranking molecules for virtual screening) 와 보상 설계 (reward design) 를 통한 분자 생성 유도 (guiding molecular generation) 에서 모두 효과적으로 수행됨을 보여줍니다. 이러한 발견은 사전 학습된 분자 임베딩이 풍부한 구조 정보를 포착할 수 있으며, 현대 AI 지원 약물 개발에 유망하고 확장 가능한 유사성 측정 도구로 활용될 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

사전 학습 분자 임베딩 거리를 활용한 리간드 기반 가상 스크리닝 및 분자 생성 고도화

요약

핵심 포인트

댓글