arXiv논문2026. 06. 08. 11:21

RETROSPECT: 순차적 예측 및 화학적 변환 랭킹을 통한 역합성 (RETROsynthesis)

요약

RETROSPECT는 제안-선택 분해 방식을 통해 단일 단계 역합성을 수행하는 시스템입니다. ChemAlign Transformer 기반의 생성 모델과 LambdaMART 재순위화 모델을 결합하여 높은 정확도와 유효성을 달성했습니다.

핵심 포인트

ChemAlign Transformer를 활용한 고성능 역합성 제안 모델 개발
LambdaMART를 이용한 구조적 및 반응 템플릿 기반 재순위화 구현
USPTO-50K 테스트 세트에서 99.86%의 높은 top-1 유효성 달성
제안 모델과 재순위화 모델의 상호 보완적인 모듈식 구조 입증

단일 단계 역합성 (Single-step retrosynthesis)에는 정확한 1순위 제안과 더불어 후속 선택을 위해 충분히 풍부한 후보 리스트가 모두 필요합니다. 우리는 이를 제안-선택 분해 (proposal-selection decomposition) 방식으로 연구합니다. 우리의 시스템인 RETROSPECT는 ChemAlign Transformer라고 부르는 단일 Transformer 제안 모델과 구조적, 반응 템플릿 (reaction-template), 상위 점수 (upstream-score), 그리고 선택 사항인 DFT 유도 기술자 (DFT-derived descriptors)를 활용한 LambdaMART 재순위화 모델 (reranker)을 결합합니다. 생성기 (generator)는 하이브리드 루트 정렬 (root-aligned) 및 무작위 SMILES 증강 (augmentation), Pre-LayerNorm, 결합 임베딩 (tied embeddings), 지수 이동 평균 (exponential moving average) 가중치, 그리고 미분 가능한 원자 균형 (atom-balance) 보조 손실 함수를 사용하여 학습됩니다. 5,007개의 반응으로 구성된 전체 USPTO-50K 테스트 세트에서 생성기는 99.86%의 top-1 유효성 (validity)과 함께 55.00%의 top-1 및 86.18%의 top-10 완전 일치 (exact-match) 정확도를 달성했습니다. 제품당 약 111개의 후보를 포함하여 5,007개의 테스트 생성물을 포함하는 재순위화를 위한 병합된 후보 풀 (candidate-pool) 벤치마크에서, 구조적 특징 세트로 학습된 LambdaMART 모델은 0.7171의 평균 역순위 (mean reciprocal rank)와 함께 59.4%의 top-1 정확도에 도달했습니다. 특징 제거 실험 (Feature ablations) 결과, 상위 제안 점수 (upstream proposal score)와 템플릿 빈도 통계가 재순위화 신호의 대부분을 제공하는 반면, DFT 및 반응 중심 (reaction-center) DFT 특징은 더 작고 일관성이 낮은 이득을 제공하는 것으로 나타났습니다. 이러한 결과는 역합성에 대한 모듈식 관점을 뒷받침합니다. 즉, 더 강력한 단일 모델 제안과 학습된 후보 선택은 상호 보완적이며, 제안 모델은 RetroChimera (Maziarz et al., 2024)와 같은 앙상블 시스템을 위한 드롭인 (drop-in) 구성 요소로 활용될 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

RETROSPECT: 순차적 예측 및 화학적 변환 랭킹을 통한 역합성 (RETROsynthesis)

요약

핵심 포인트

댓글