수용성(Aqueous Solubility)에 대한 화학적 및 구조적 기여를 규명하기 위한 가산형 MLP-GNN 프레임워크
요약
수용성 예측 시 물리화학적 기술자와 분자 그래프 정보를 분리하여 처리하는 가산형 MLP-GNN 프레임워크를 제안합니다. 이 모델은 화학적 성질과 구조적 기여도를 독립적으로 분석할 수 있어 예측의 투명성과 정확도를 동시에 높였습니다.
핵심 포인트
- MLP와 GNN을 활용한 화학적/구조적 정보의 분리 인코딩
- 가산 모델 설계를 통한 각 정보원의 기여도 직접 분해 가능
- AqSolDB 사전 훈련 및 BigSolDB2 미세 조정을 통한 성능 향상
- GNNExplainer를 활용한 작용기 수준의 모델 해석력 확보
수용성(Aqueous solubility)은 초기 단계 신약 개발에서 핵심적인 특성이지만, 대부분의 예측 모델은 물리화학적 기술자(physicochemical descriptors)와 분자 그래프 정보를 단일 표현으로 병합하여, 예측이 전역적 화학 성질, 분자 구조, 또는 두 가지 모두에 의해 유도되는지 여부를 불분명하게 만듭니다. 본 연구에서는 훈련 과정 전반에 걸쳐 이 두 가지 정보원을 분리하여 유지하는 가산형 딥러닝 프레임워크를 제시합니다. 물리화학적 기술자는 다층 퍼셉트론(multilayer perceptron, 화학 브랜치)에 의해 인코딩되고, 분자 그래프 위상(molecular graph topology)은 그래프 신경망(graph neural network, 구조 브랜치)에 의해 인코딩되며, 두 출력은 선택적인 곱셈 상호작용(multiplicative interaction)을 포함하는 가산 모델(additive model)을 통해 예측 단계에서만 결합됩니다. 이러한 설계는 훈련 후 별도로 검토할 수 있는 화학적 및 구조적 구성 요소의 직접적인 분해를 제공합니다. 또한, 더 큰 AqSolDB 데이터셋에서 사전 훈련(pretraining)을 수행하고 더 작은 BigSolDB2 데이터셋에서 미세 조정(fine-tuning)을 수행함으로써 정확도를 실질적으로 향상시키고 실행 간 변동(run-to-run variations)을 줄였으며, 이는 데이터가 풍부한 환경에서 학습된 특징(features)의 일반화 가능성을 나타냅니다. 우리는 나아가 브랜치 출력의 최적 선형 투영(best linear projections), 용해도 클래스 전반에 걸친 분자 수준 임베딩 요약, 그리고 작용기(functional groups)에 대해 집계된 원자 수준의 GNNExplainer 마스크를 사용하여 적합된 모델을 해석합니다. 이러한 분석은 화학 브랜치가 친숙한 물리화학적 기술자와 일치하는 반면, 구조 브랜치는 용해도와 관련된 그래프 위상 및 작용기 패턴을 포착함을 보여줍니다. 두 데이터셋 모두에서 이 프레임워크는 화학적 및 구조적 정보의 뚜렷한 역할을 더욱 투명하게 만드는 동시에 경쟁력 있는 예측 성능을 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기