BiMol-Diff: 분자 생성 및 캡셔닝을 위한 통합 확산 프레임워크

분자 구조와 자연어 간의 연결은 제어 가능한 설계에 필수적입니다. 오터레그레시브 (autoregressive) 모델은 장거리 의존성 (long-range dependencies) 처리에 어려움을 겪으며, 표준 확산 과정 (standard diffusion processes) 은 위치마다 균일한 부패 (uniform corruption) 를 적용하여 구조적으로 유의미한 토큰을 왜곡시킬 수 있습니다. 우리는 텍스트 조건부 분자 생성 (text-conditioned molecule generation) 과 분자 캡셔닝 (molecule captioning) 의 쌍대 작업을 위한 통합 확산 프레임워크인 BiMol-Diff 를 제안합니다. 우리의 핵심 구성 요소는 토큰 회복 난이도에 기반하여 위치 의존적 부패를 할당하는 토큰 인식 노이즈 스케줄 (token-aware noise schedule) 입니다. 이는 순방향 과정에서 회복하기 어려운 하위 구조를 보존합니다. ChEBI-20 과 M3-20M 데이터셋에서 BiMol-Diff 는 Exact Match 에서 15.4% 의 상대적 향상을 통해 분자 재구성 성능을 개선했으며, 비교 대상 베이스라인 (baselines) 중 가장 높은 BLEU 와 BERTScore 를 달성하는 강력한 캡셔닝 결과를 보였습니다. 이러한 결과는 토큰 인식 노이징이 분자 구조-언어 모델링의 충실도 (fidelity) 를 향상시킨다는 것을 시사합니다.

Insights

BiMol-Diff: 분자 생성 및 캡셔닝을 위한 통합 확산 프레임워크

요약

핵심 포인트

댓글

하나의 에이전트에 3개의 MCP 서버를 연결했더니 무서울 정도로 빨라졌다

당신의 CLAUDE.md는 확장되지 않습니다. AI 표준을 코드로 버전 관리하세요.

플라스틱 전자책 단말기 케이스가 분류(Classifier) 문제로 변할 때

CachyLLama: 로컬 에이전트 워크플로우를 위한 지속 가능한 SSD 기반 KV 캐싱 지원 llama.cpp 포크

하나의 에이전트에 3개의 MCP 서버를 연결했더니 무서울 정도로 빨라졌다

당신의 CLAUDE.md는 확장되지 않습니다. AI 표준을 코드로 버전 관리하세요.

플라스틱 전자책 단말기 케이스가 분류(Classifier) 문제로 변할 때

CachyLLama: 로컬 에이전트 워크플로우를 위한 지속 가능한 SSD 기반 KV 캐싱 지원 llama.cpp 포크