본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 29. 11:28

OOD-GraphLLM: 분포 외 일반화된 약물 시너지 예측을 위한 그래프 거대 언어 모델

요약

OOD-GraphLLM은 분자 구조의 변화(O.O.D.) 상황에서도 정확한 약물 시너지 예측을 수행하는 새로운 그래프 거대 언어 모델 프레임워크입니다. 분자의 위상 정보와 생물 의학적 의미론적 정보를 통합하여 최적화함으로써 기존 모델의 한계를 극복합니다.

핵심 포인트

  • 분자 골격 변화에 대응하는 O.O.D. 일반화 기술 제안
  • 분자 그래프 표현과 생물 의학 언어 표현의 공동 최적화
  • DrugSyn-LLM 미세 조정 및 검색 증강 지시어 튜닝 적용
  • 소스 코드 및 모델 리소스 공개를 통한 연구 재현성 확보

약물 시너지 예측 (Drug synergy prediction, DSP)은 서로 다른 타겟을 가진 다양한 세포 맥락 하에서 효능이 있는 약물 조합을 식별하는 것을 목표로 합니다. 그러나 새로운 화합물이 지속적으로 등장함에 따라 분자 골격 (molecular scaffolds)과 크기에 변화가 생기며, 이로 인해 약물 시너지 데이터는 위상 구조 (topological structure) 측면에서 분포 외 (out-of-distribution, O.O.D.) 변화를 보이게 됩니다. 기존 연구들은 분포 내 (in-distribution, I.D.) 가정을 기반으로 하고 있어, O.O.D. 변화를 처리하는 데 한계가 있습니다. 이 문제를 해결하기 위해, 본 연구에서는 그래프 거대 언어 모델 (graph large language model)을 통해 분포 외 일반화된 약물 시너지 예측을 최초로 연구합니다. 그럼에도 불구하고, O.O.D. 일반화된 DSP는 다음과 같은 몇 가지 과제를 안고 있어 매우 까다롭습니다: i) 세포 타겟과 관련이 있거나 관련이 없는 구조적 분자 표현 (molecular representations)을 어떻게 발견할 것인가; ii) 분자 표현을 정확하게 계산하는 최적의 그래프 신경망 (graph neural architectures) 구조를 어떻게 찾을 것인가; iii) LLM에서 분자의 구조적 정보와 의미적 정보 (semantic information)를 어떻게 공동으로 활용할 것인가. 이러한 과제를 해결하기 위해, 우리는 분자 그래프 표현과 생물 의학적 의미론적 언어 표현을 통일된 방식으로 공동 최적화함으로써 O.O.D. 설정 하에서 약물 시너지를 정확하게 예측할 수 있는 새로운 graphLLM 프레임워크인 OOD-GraphLLM을 제안합니다. 나아가, 우리는 생물 의학 LLM인 DrugSyn-LLM을 미세 조정 (finetune)하고, 검색 증강 생물 의학 지시어 튜닝 (retrieval-augmented biomedical instruction tuning) 전략을 채택하여 분자의 위상 정보와 분자의 의미 정보를 언어 기반 추론과 정렬함으로써 O.O.D. 일반화된 DSP를 수행합니다. 소스 코드 (https://github.com/EkkoXiao/Bio-GraphLLM)와 공개된 모델 (https://mn.cs.tsinghua.edu.cn/bio-graphllm/)은 모두 공개되어 있으며, 사용자는 모델 리소스를 다운로드하고 웹 인터페이스를 통해 시스템을 대화형으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0