arXiv논문2026. 05. 13. 04:06

FORGE: 문맥 인식 분획 기반 순위 지정 및 생성을 통한 분자 최적화

요약

FORGE는 문맥 인식 분획 기반 순위 지정 및 생성을 통해 분자 최적화를 수행하는 2단계 프레임워크입니다. 기존의 언어 모델 접근 방식이 가진 데이터 스케일링 병목 현상, 화학적 환각 문제, 그리고 분획 효과의 문맥 의존성 무시 등의 한계를 극복합니다. FORGE는 자동 추출된 저-고 편집 쌍을 활용하여 후보 분획 순위 지정(Stage 1)과 명시적인 분획 대체물 생성(Stage 2)을 수행하며, 소형 언어 모델 기반으로 다양한 화학적 목표에 대해 높은 성능을 입증했습니다.

핵심 포인트

FORGE는 분자 최적화를 '문맥 인식 로컬 편집'으로 재정의하여 기존 LLM 접근 방식의 한계를 극복합니다.
이 프레임워크는 값비싼 인간 주석 대신 자동 추출된 저-고(low-to-high) 편집 쌍을 활용합니다.
Stage 1에서는 전체 분자 문맥 하에서 후보 분획들의 속성 기여도에 따라 순위 지정하여 화학적 사전 지식을 주입합니다.
소형 언어 모델 기반임에도 불구하고, FORGE는 다양한 표준 벤치마크에서 기존의 대규모 LLM 및 그래프 방법론을 능가하는 성능을 보여줍니다.

분자 최적화는 시작 화합물과의 유사성을 유지하면서 작은 구조 편집을 통해 분자를 개선하는 것을 목표로 합니다. 최근의 언어 모델 접근 방식들은 일반적으로 이 작업을 프롬프트 조건부 시퀀스 생성으로 취급합니다. 하지만 자연어를 사용한다는 것은 내재적인 데이터 스케일링 병목 현상을 초래하고, 종종 화학적 환각(chemical hallucinations)을 유발하며, 분획 효과의 강력한 문맥 의존성을 무시합니다. 본 논문에서는 분자 최적화를 문맥 인식 로컬 편집으로 재정의하는 2단계 프레임워크인 FORGE를 제시합니다. 값비싼 인간의 텍스트 주석 대신 자동 추출되고 검증된 저-고(low-to-high) 편집 쌍을 활용하여, Stage 1은 전체 분자 문맥 하에서 후보 분획들을 그 속성 기여도에 따라 순위 지정하여 화학적 사전 지식(chemical prior)을 주입하고, Stage 2는 명시적인 분획 대체물을 생성합니다. 소형 0.6B 언어 모델을 기반으로 FORGE는 인컨텍스트 데모네이션(in-context demonstrations)을 통해 보지 못한 블랙박스 목표에도 적응합니다. Prompt-MolOpt, PMO-1k 및 ChemCoTBench 전반에 걸쳐 FORGE는 훨씬 더 큰 언어 모델과 그래프 방법론을 포함한 기존의 방법들을 일관되게 능가하는 성능을 보여줍니다. 이러한 결과들은 자연어 학습에 대한 보다 쉽게 얻을 수 있고, 확장 가능하며, 환각이 없는 대안으로서 명시적인 분획 수준의 지도(fragment-level supervision)의 가치를 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FORGE: 문맥 인식 분획 기반 순위 지정 및 생성을 통한 분자 최적화

요약

핵심 포인트

댓글