수용성(Aqueous Solubility)에 대한 화학적 및 구조적 기여를 규명하기 위한 가산형 MLP-GNN 프레임워크

수용성(Aqueous solubility)은 초기 단계 신약 개발에서 핵심적인 특성이지만, 대부분의 예측 모델은 물리화학적 기술자(physicochemical descriptors)와 분자 그래프 정보를 단일 표현으로 병합하여, 예측이 전역적 화학 성질, 분자 구조, 또는 두 가지 모두에 의해 유도되는지 여부를 불분명하게 만듭니다. 본 연구에서는 훈련 과정 전반에 걸쳐 이 두 가지 정보원을 분리하여 유지하는 가산형 딥러닝 프레임워크를 제시합니다. 물리화학적 기술자는 다층 퍼셉트론(multilayer perceptron, 화학 브랜치)에 의해 인코딩되고, 분자 그래프 위상(molecular graph topology)은 그래프 신경망(graph neural network, 구조 브랜치)에 의해 인코딩되며, 두 출력은 선택적인 곱셈 상호작용(multiplicative interaction)을 포함하는 가산 모델(additive model)을 통해 예측 단계에서만 결합됩니다. 이러한 설계는 훈련 후 별도로 검토할 수 있는 화학적 및 구조적 구성 요소의 직접적인 분해를 제공합니다. 또한, 더 큰 AqSolDB 데이터셋에서 사전 훈련(pretraining)을 수행하고 더 작은 BigSolDB2 데이터셋에서 미세 조정(fine-tuning)을 수행함으로써 정확도를 실질적으로 향상시키고 실행 간 변동(run-to-run variations)을 줄였으며, 이는 데이터가 풍부한 환경에서 학습된 특징(features)의 일반화 가능성을 나타냅니다. 우리는 나아가 브랜치 출력의 최적 선형 투영(best linear projections), 용해도 클래스 전반에 걸친 분자 수준 임베딩 요약, 그리고 작용기(functional groups)에 대해 집계된 원자 수준의 GNNExplainer 마스크를 사용하여 적합된 모델을 해석합니다. 이러한 분석은 화학 브랜치가 친숙한 물리화학적 기술자와 일치하는 반면, 구조 브랜치는 용해도와 관련된 그래프 위상 및 작용기 패턴을 포착함을 보여줍니다. 두 데이터셋 모두에서 이 프레임워크는 화학적 및 구조적 정보의 뚜렷한 역할을 더욱 투명하게 만드는 동시에 경쟁력 있는 예측 성능을 달성합니다.

Insights

수용성(Aqueous Solubility)에 대한 화학적 및 구조적 기여를 규명하기 위한 가산형 MLP-GNN 프레임워크

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때