MolSight: 통합된 화학 이미지 이해를 위한 그래프 인식 시각-언어 모델 (Vision-Language Model)
요약
MolSight는 분자 구조의 시각적 표현과 위상학적 정보를 효과적으로 포착하기 위해 설계된 그래프 인식 시각-언어 모델(VLM) 프레임워크입니다. 분자 위상 모듈과 그라운딩 모듈을 통해 기존 모델의 구조적 정렬 문제를 해결하고 화학 이미지 이해 능력을 혁신적으로 향상시켰습니다.
핵심 포인트
- 분자 구조의 위상학적 정보를 시각 토큰에 주입하는 모듈 제안
- 시각적 특징과 화학적 기호 의미론 간의 정렬 최적화
- 기존 VLM 및 분자 LLM 대비 뛰어난 화학 이미지 추론 성능 입증
- 신약 개발 및 분자 설계 분야의 새로운 연구 방향 제시
분자 구조와 기능을 이해하기 위한 통합 프레임워크로서 분자 거대 언어 모델 (LLMs)을 사용하는 것은 분자 설계 및 신약 개발과 같은 작업에서 새로운 트렌드로 떠오르고 있습니다. 그러나 이러한 모델들은 분자 구조의 시각적 표현을 완전히 포착하는 데 어려움을 겪고 있으며, 이는 잠재력을 제한하는 요소가 됩니다. 기존의 분자 시각-언어 모델 (VLMs)이 유망한 가능성을 보여주고 있음에도 불구하고, 구조적 정렬 (structural alignment) 문제에 직면해 있으며 정확한 분자 이해를 위한 필수적인 위상학적 모델링 (topological modeling)이 부족한 실정입니다. 이를 해결하기 위해, 우리는 VLM에 의한 분자 이미지 이해를 향상시키도록 설계된 그래프 인식 시각-언어 모델 프레임워크인 MolSight를 제안합니다. MolSight는 화학 결합 인접 정보 (chemical-bond adjacency information)를 시각 토큰 (vision tokens)에 주입하는 분자 위상 모듈 (Molecular Topology Module)과 시각적 특징을 화학적 기호 의미론 (chemical symbolic semantics)과 정렬하는 분자 그라운딩 모듈 (Molecular Grounding Module)을 통합합니다. 우리의 실험 결과는 MolSight가 다양한 화학 시각 이해 작업 전반에서 기존의 VLM, 분자 LLM 및 특화된 도구들을 크게 능가하며, 분자 이미지 추론의 새로운 수준을 달성했음을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기