arXiv논문2026. 06. 15. 07:50

지역 $n$-gram 메모리로 분자 언어 모델 증강하기

요약

본 논문은 SMILES 문자열 기반 분자 언어 모델이 겪는 지역성 격차 문제를 해결하기 위해 MolGram이라는 조건부 $n$-gram 메모리 모듈을 제안합니다. 이 모듈은 해시 조회를 통해 화학적으로 의미 있는 지역 패턴을 학습된 임베딩으로 매핑하여 은닉 상태에 동적으로 주입함으로써 모델의 성능을 개선했습니다.

핵심 포인트

표준 토큰화는 분자 언어 모델에서 장거리 의존성을 희생시킵니다.
MolGram은 조건부 $n$-gram 메모리를 통합하여 지역적 컨텍스트를 주입합니다.
제안된 방법은 무조건 생성, 반응 예측 등 세 가지 작업에서 성능을 개선했습니다.
명시적인 지역 패턴 메모리가 효율적인 귀납적 편향임을 입증했습니다.

SMILES 문자열을 위한 Transformer 기반 언어 모델은 지역성 격차(locality gap)를 겪습니다: 표준 문자 수준 토큰화는 화학적으로 의미 있는 모티프를 조각내어, 장거리 의존성을 희생하면서 모델이 국소 구문을 반복적으로 학습하도록 강제합니다. 이러한 문제를 표준 토크나이저를 방해하지 않으면서 해결하기 위해, 우리는 분자 언어 모델에 조건부 $n$-gram 메모리 모듈을 통합한 MolGram을 제안합니다. MolGram은 확장 가능한 해시 조회(hash lookups)를 통해 지역 문자열 패턴을 학습된 임베딩으로 매핑하고, 이 지역적 컨텍스트를 은닉 상태(hidden states)에 동적으로 주입합니다. 무조건 분자 생성, 전진 반응 예측, 단일 단계 역합성(retrosynthesis)을 포함한 세 가지 작업에 걸친 평가 결과는 MolGram이 일관되게 성능을 개선함을 보여줍니다. 결정적으로, 우리의 분석은 MolGram이 파라미터가 3배 더 많은 기준 모델보다 우수하며, 명시적인 지역 패턴 메모리가 매우 효율적인 귀납적 편향(inductive bias)임을 확립합니다.

AI 자동 생성 콘텐츠

원문 바로가기

지역 $n$-gram 메모리로 분자 언어 모델 증강하기

요약

핵심 포인트

댓글