arXiv논문2026. 06. 23. 14:14

화학 언어 모델(Chemical Language Model)은 분자에 대해 무엇을 알고 있는가?

요약

MolFormer와 같은 화학 언어 모델(cLMs)이 분자 표현을 구축하는 과정을 희소 오토인코더(SAE)를 통해 기계론적으로 분석한 연구입니다. 초기 층은 분자 문법을 파싱하고 후기 층은 약리학적 특징을 인코딩함을 밝혀냈습니다.

핵심 포인트

MolFormer의 층별 분자 표현 구축 과정을 SAE로 조사
초기 층은 위치 추적, 후기 층은 하위 구조 및 약리학적 특징 인코딩
비정형 SMILES가 유효하지 않은 SMILES보다 표현 변화에 더 큰 영향
분자 활성화를 시각화하는 대화형 도구 InterMol 개발

화학 언어 모델(cLMs)은 의미 있는 분자 의미론(molecular semantics)을 학습하기보다는 표면적인 구문 패턴(syntactic patterns)을 학습한다고 널리 추정됩니다. 본 연구에서는 인코더 전용(encoder-only) cLM인 MolFormer에 희소 오토인코더(sparse autoencoders, SAEs)를 적용하여, 층(layer) 전반에 걸쳐 분자 표현(molecular representations)이 어떻게 구축되는지 기계론적으로 조사합니다. 우리는 초기 층이 분자 문법(molecular grammar)을 파싱하기 위해 위치 추적 잠재 변수(position-tracking latents)에 의존하는 반면, 후기 층은 하위 구조 내 원자(atom-in-substructure) 및 약리학적으로 관련 있는 특징들을 인코딩한다는 것을 발견했습니다. 또한, 비정형 SMILES(non-canonical SMILES)가 유효하지 않은 SMILES(invalid SMILES)보다 더 파괴적인 표현 변화(representation shifts)를 일으킨다는 것을 보여주며, 이는 층 전체로 전파되는 위치 잠재 변수 교란(position-latent disruption)에 의해 발생합니다. 추가적인 탐색을 지원하기 위해, 우리는 분자 문자열 및 구조에 대한 SAE 활성화(activations)를 보여주는 대화형 시각화 도구인 InterMol을 개발했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

화학 언어 모델(Chemical Language Model)은 분자에 대해 무엇을 알고 있는가?

요약

핵심 포인트

댓글