arXiv논문2026. 05. 18. 20:02

분자 특성 예측을 위한 구성적 계층 그래프 기반 다층 자기지도 사전학습 방법론

요약

MolCHG는 분자 구조를 원자, 결합, 파편의 세 가지 의미론적 계층으로 구성된 계층적 그래프로 모델링하는 새로운 자기지도 사전학습 프레임워크입니다. 기존 방식과 달리 결합 정보를 독립적인 노드 표현으로 격상시켜 원자 및 결합 수준의 정보를 통합적으로 학습하며, 세 가지 수준의 사전학습 목적 함수를 통해 분자 특성 예측 성능을 극대화했습니다. MoleculeNet 벤치마크 실험 결과, 다수의 데이터셋에서 기존 모델들을 뛰어넘는 최고 성능을 기록했습니다.

핵심 포인트

결합(Bond) 정보를 단순 에지 속성이 아닌 독립적인 노드 표현으로 격상시킨 구성적 계층 그래프 구조 도입
원자-결합 교차 뷰 대조 학습, 파편 수준 작용기 예측, 그래프 수준 구조 예측의 3단계 사전학습 설계
원자, 결합, 파편의 세 가지 의미론적 수준을 통합하여 분자의 구조적 입도를 정밀하게 포착
MoleculeNet 9개 벤치마크 중 7개 데이터셋에서 분류 및 회귀 작업 모두 최고 성능 달성

분자 그래프 (Molecular graph)에 대한 자기지도 사전학습 (Self-supervised pretraining)은 분자 특성 예측 (Molecular property prediction)을 위한 유망한 접근 방식으로 부상했으나, 기존의 대부분의 방법은 단일한 구조적 입도 (Granularity)에서 작동하며 결합 (Bond) 정보를 독립적인 의미론적 계층 (Semantic layer)이 아닌 보조적인 에지 속성 (Edge attributes)으로 취급합니다. 본 연구에서는 분자 구조를 세 가지 의미론적 수준에 걸쳐 네 가지 유형의 노드로 구성하는 새로운 구성적 계층 그래프 (Compositional Hierarchical Graph)를 기반으로 구축된 다층 자기지도 사전학습 프레임워크인 MolCHG를 제안합니다. 원자 그래프 (Atom graph)와 병렬로 작동하는 결합 그래프 (Bond graph)를 도입함으로써, 우리의 아키텍처는 결합 수준의 정보를 독립적으로 진화하는 노드 표현 (Node representations)으로 격상시켜, 파편 노드 (Fragment nodes)가 원자 수준 및 결합 수준의 의미론을 대등한 위치에서 집계할 수 있도록 합니다. 우리는 세 가지 수준별 사전학습 목적 함수 (Pretraining objectives)를 설계했습니다: 각 파편 내에서 원자 뷰 (Atom-view)와 결합 뷰 (Bond-view) 표현을 정렬하는 원자-결합 교차 뷰 대조 학습 (Atom-bond cross-view contrastive task), 도메인 관련 화학 지식을 주입하기 위한 파편 수준의 작용기 예측 (Fragment-level functional group prediction) 작업, 그리고 전역적 분자 위상 (Global molecular topology)을 인코딩하기 위한 그래프 수준의 구조 예측 (Graph-level structure prediction) 작업입니다. 9개의 MoleculeNet 벤치마크에 대한 실험 결과, MolCHG는 분류 (Classification) 및 회귀 (Regression) 작업 모두에서 7개의 데이터셋에 대해 최고의 성능을 달성했으며, 나머지 데이터셋에서도 가장 강력한 베이스라인 (Baselines) 모델들과 경쟁력 있는 성능을 유지함을 입증했습니다. 절제 연구 (Ablation studies)를 통해 다층 감독 신호 (Multi-level supervision signals)가 상호 보완적이며, 각 구성 요소가 전체 성능에 기여한다는 점을 추가로 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

분자 특성 예측을 위한 구성적 계층 그래프 기반 다층 자기지도 사전학습 방법론

요약

핵심 포인트

댓글