Bolek: 분자 추론을 위한 다중 모달 언어 모델
요약
Bolek은 Morgan fingerprint 임베딩을 인스트럭션 튜닝 텍스트 디코더에 주입하여 자연어 추론이 분자 구조에 근거하도록 설계된 컴팩트한 다중 모달 언어 모델입니다. 이 모델은 분자 설명, RDKit descriptor 예측 등 다양한 작업으로 미세 조정되었으며, 기존 LLM 대비 높은 성능과 함께 생성되는 설명의 신뢰성(근거 기반)을 크게 향상시켰습니다. Bolek는 여러 다운스트림 추론 작업에서 우수한 성능을 보였을 뿐만 아니라, 언급된 분자 특성 값들이 RDKit 계산값과 매우 높은 상관관계를 보여 모델의 감사 가능성을 입증했습니다.
핵심 포인트
- Bolek은 다중 모달리티(분자 임베딩 + 텍스트)를 결합하여 자연어 추론을 분자 구조에 근거하도록 합니다.
- 모델은 다양한 분자 정렬 작업(예: RDKit descriptor 예측, 하위 구조 감지)으로 미세 조정되어 높은 성능을 달성했습니다.
- Bolek이 생성하는 설명은 기존 LLM보다 훨씬 더 많은 수치적 디스크립터를 인용하며, 이 값들은 실제 분자 계산값과 높은 일치도를 보입니다 (Spearman rho = 0.87-0.91).
- 모델은 훈련되지 않은(미확인) 분류 및 회귀 엔드포인트에서도 좋은 일반화 성능을 보여줍니다.
분자 속성 모델은 이제 고위험 약물 발견 결정에 점점 더 많은 지원을 제공하지만, 그 출력은 종종 감사하기 어렵습니다. 고전 예측자는 이유 없이 점수를 반환하고, 언어 모델은 입력 분자에 약하게 근거를 둔 유동적인 설명을 생성할 수 있습니다. 우리는 Morgan fingerprint embedding 을 인스트럭션 튜닝 텍스트 디코더에 주입함으로써 자연어 추론을 분자 구조에 근거하도록 하는 컴팩트한 다중 모달 언어 모델인 Bolek 를 소개합니다.
Bolek 는 분자 정렬 작업, 즉 분자 설명, RDKit descriptor 예측, 그리고 하위 구조 감지 작업을 포함하여 미세 조정되었으며, 15 개의 TDC 이진 분류 작업에 대한 다운스트림 추론을 합성된 체인 오브 스코프 (chain-of-thought) 를 통해 수행했습니다. 이 체인 오브 스코프는 구체적인 분자 특성에 기반합니다.
이러한 작업들에서 Bolek 는 모든 엔드포인트에서 yes/no 모드와 13 개의 15 개 체인 오브 스코프 모드에서 Qwen3-4B-Instruct 기본 모델보다 우위를 점하며, 평균 ROC/PR AUC 를 0.55 에서 0.76 으로 높였습니다. 또한 Bolek 는 TxGemma-9B-Chat 보다 더 작지만 15 개의 이진 분류 작업 중 13 개에서 우위를 점합니다.
Bolek 의 설명은 베이스라인 LLM 들보다 더 근거가 있습니다: 체인 오브 스코프당 수치적 디스크립터 (numerical descriptors) 를 10-100 배 더 자주 인용하며, 인용된 값은 TPSA, MolLogP, MolWt 와 같은 주요 디스크립터에 대해 RDKit 과 강하게 일치합니다 (Spearman rho = 0.87-0.91).
일반화는 훈련 패널을 넘어 확장됩니다: 15 개의 미확인 TDC 분류 엔드포인트에서 Bolek 는 TxGemma 와 5 개를 맞추며, 훈련 중 다운스트림 회귀를 보지 않았음에도 불구하고 3 개의 홀드아웃 회귀 엔드포인트에서 비자명한 순위 상관관계를 생성합니다.
이러한 결과는 타겟 모달리티 주입과 검증 가능한 분자 특성과 연결된 추론 감독이 컴팩트하고 감사 가능한 분자 추론 모델을 얻을 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기