본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 08. 11:21

RETROSPECT: 순차적 예측 및 화학적 변환 랭킹을 통한 역합성 (RETROsynthesis)

요약

RETROSPECT는 제안-선택 분해 방식을 통해 단일 단계 역합성을 수행하는 시스템입니다. ChemAlign Transformer 기반의 생성 모델과 LambdaMART 재순위화 모델을 결합하여 높은 정확도와 유효성을 달성했습니다.

핵심 포인트

  • ChemAlign Transformer를 활용한 고성능 역합성 제안 모델 개발
  • LambdaMART를 이용한 구조적 및 반응 템플릿 기반 재순위화 구현
  • USPTO-50K 테스트 세트에서 99.86%의 높은 top-1 유효성 달성
  • 제안 모델과 재순위화 모델의 상호 보완적인 모듈식 구조 입증

단일 단계 역합성 (Single-step retrosynthesis)에는 정확한 1순위 제안과 더불어 후속 선택을 위해 충분히 풍부한 후보 리스트가 모두 필요합니다. 우리는 이를 제안-선택 분해 (proposal-selection decomposition) 방식으로 연구합니다. 우리의 시스템인 RETROSPECT는 ChemAlign Transformer라고 부르는 단일 Transformer 제안 모델과 구조적, 반응 템플릿 (reaction-template), 상위 점수 (upstream-score), 그리고 선택 사항인 DFT 유도 기술자 (DFT-derived descriptors)를 활용한 LambdaMART 재순위화 모델 (reranker)을 결합합니다. 생성기 (generator)는 하이브리드 루트 정렬 (root-aligned) 및 무작위 SMILES 증강 (augmentation), Pre-LayerNorm, 결합 임베딩 (tied embeddings), 지수 이동 평균 (exponential moving average) 가중치, 그리고 미분 가능한 원자 균형 (atom-balance) 보조 손실 함수를 사용하여 학습됩니다. 5,007개의 반응으로 구성된 전체 USPTO-50K 테스트 세트에서 생성기는 99.86%의 top-1 유효성 (validity)과 함께 55.00%의 top-1 및 86.18%의 top-10 완전 일치 (exact-match) 정확도를 달성했습니다. 제품당 약 111개의 후보를 포함하여 5,007개의 테스트 생성물을 포함하는 재순위화를 위한 병합된 후보 풀 (candidate-pool) 벤치마크에서, 구조적 특징 세트로 학습된 LambdaMART 모델은 0.7171의 평균 역순위 (mean reciprocal rank)와 함께 59.4%의 top-1 정확도에 도달했습니다. 특징 제거 실험 (Feature ablations) 결과, 상위 제안 점수 (upstream proposal score)와 템플릿 빈도 통계가 재순위화 신호의 대부분을 제공하는 반면, DFT 및 반응 중심 (reaction-center) DFT 특징은 더 작고 일관성이 낮은 이득을 제공하는 것으로 나타났습니다. 이러한 결과는 역합성에 대한 모듈식 관점을 뒷받침합니다. 즉, 더 강력한 단일 모델 제안과 학습된 후보 선택은 상호 보완적이며, 제안 모델은 RetroChimera (Maziarz et al., 2024)와 같은 앙상블 시스템을 위한 드롭인 (drop-in) 구성 요소로 활용될 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0