LLM은 분자 영역에서 진정으로 일반화할 수 있는가? 섭동 기반 분석

대규모 언어 모델 (LLMs)은 최근 분자 발견 (molecular discovery) 분야에서 가능성을 보여주었으나, 이산적인 순차적 토큰 (discrete sequential tokens)에 대한 확률적 특성과 화학 공간 (chemical space)의 엄격한 위상적 제약 (topological constraints) 사이에는 여전히 간극이 존재합니다. 이는 분자 LLM이 시퀀스 기반 표현 (sequence-based representations)에 의해 유도된 국소적 이웃 (local neighborhoods)을 넘어 일반화할 수 있는지에 대한 의문을 제기합니다. 이 질문을 체계적으로 조사하기 위해, 우리는 분자 LLM의 매니폴드 규칙성 (manifold regularity)을 조사하기 위해 제어된 그래프 편집 거리 (Graph Edit Distance, GED) 하에서 훈련 분자의 구문적으로 유효한 구조적 변이체를 생성하는 분자 섭동 (Molecular Perturbation) 프레임워크를 도입합니다. 우리의 분석에 따르면, 단 한 번의 편집만으로도 일반적인 분자 작업에서 상당한 성능 저하를 일으킬 수 있으며, 이는 좁은 국소 신뢰 영역 (local trust region)과 구조적 변화에 대한 취약한 민감도를 드러냅니다. 유사한 분자들은 유사한 특성을 나타내는 경향이 있으므로, 구조적으로 유사한 분자에 예측을 고정하는 인컨텍스트 튜닝 (In-Context Tuning, ICT)은 이러한 취약성을 완화하는 자연스러운 방법을 제공합니다. 우리의 실험은 또한 ICT가 제어된 구조적 섭동 하에서 강건성 (robustness)을 부여하는지 검토하며, 결과는 ICT가 국소 신뢰 영역을 부분적으로 확장할 수 있고 구조적 변이에 대해 분자 LLM을 안정화하기 위한 유망한 방향을 제공함을 시사합니다.

Insights

LLM은 분자 영역에서 진정으로 일반화할 수 있는가? 섭동 기반 분석

요약

핵심 포인트

댓글

어제 테슬라 발표에서 다들 인도량 48만 대만 봤는데, 그 아래 줄에 더 재밌는 숫자가 있었다. 에너지 저장장치 배포 13.5GWh. 라스롭과

Anthropic이 Samsung Foundry와 AI 칩 제조 논의 중이라는 소식, 가장 놀라운 건 패키징까지 Samsung 걸 검토

여러 프로젝트에 걸쳐 10,000개 이상의 프롬프트를 관리하는 방법

어제 테슬라 발표에서 다들 인도량 48만 대만 봤는데, 그 아래 줄에 더 재밌는 숫자가 있었다. 에너지 저장장치 배포 13.5GWh. 라스롭과

Anthropic이 Samsung Foundry와 AI 칩 제조 논의 중이라는 소식, 가장 놀라운 건 패키징까지 Samsung 걸 검토

여러 프로젝트에 걸쳐 10,000개 이상의 프롬프트를 관리하는 방법