arXiv논문2026. 05. 05. 16:31

MolViBench: 분자 바이브 코딩 (Molecular Vibe Coding) 성능 평가 벤치마크

요약

MolViBench는 화학자들이 대규모 언어 모델(LLM)과 상호작용하여 복잡한 분자 작업을 위한 실행 가능한 프로그램을 생성하는 새로운 패러다임인 '분자 바이브 코딩'을 평가하기 위해 설계된 최초의 벤치마크입니다. 이 벤치마크는 단일 API 호출부터 엔드투엔드 가상 스크리닝 파이프라인 설계까지 아우르는 12개의 실세계 약물 발견 워크플로우를 포함한 358개의 작업을 제공합니다. 또한, 실행 가능성과 화학적 정확성을 동시에 측정하는 다층 평가 프레임워크를 제안하여 LLM의 실제적인 코딩 능력을 진단할 수 있게 합니다.

핵심 포인트

분자 바이브 코딩은 LLM이 프로그래밍 능력, 분자 이해력, 도메인 특화 추론 능력을 동시에 요구하는 독특한 과제입니다.
기존 벤치마크(HumanEval 등)는 일반 코드 생성에만 초점을 맞추거나, 화학 지식 평가와 코드 생성을 분리하여 이 간극을 해소할 필요가 있었습니다.
MolViBench는 단일 API 회상부터 엔드투엔드 가상 스크리닝까지 5가지 인지 수준의 358개 실세계 약물 발견 워크플로우를 제공합니다.
제안된 다층 평가 프레임워크는 타입 인식 출력 비교와 AST 기반 분석을 결합하여 코드의 실행 가능성과 화학적 정확성을 모두 측정합니다.

분자 바이브 코딩 (Molecular Vibe Coding) 은 화학자들이 LLM 과 상호작용하여 분자 작업을 위한 실행 가능한 프로그램을 생성하는 패러다임으로, 사전 정의된 도구를 가진 화학적 에이전트 (chemical agents) 의 유연한 대안으로 등장하여 화학자들이 임의적으로 복잡한 맞춤형 워크플로우를 표현할 수 있게 합니다. 일반적인 코딩 작업과 달리 분자 코딩은 LLM 이 프로그래밍 능력, 분자 이해력, 도메인 특화 추론 능력을 함께 갖추어야 하는 독특한 과제를 부과합니다. 그러나 기존 벤치마크는 여전히 단절되어 있습니다. HumanEval 과 같은 일반 코드 생성 벤치마크는 화학 지식이 필요 없으며, S^2-Bench 와 ChemCoTBench 와 같은 화학 중심 벤치마크는 지식 회상 또는 속성 예측을 평가하지만 실행 가능한 코드 생성을 평가하지 않습니다. 이 간극을 해소하기 위해 우리는 분자 바이브 코딩에 특화된 첫 번째 벤치마크인 MolViBench 를 소개합니다. MolViBench 는 단일 API 회상부터 엔드투엔드 가상 스크리닝 파이프라인 설계까지 12 개 실세계 약물 발견 워크플로우를 거치는 5 가지 인지 수준 (cognitive levels) 의 358 개의 큐레이션된 작업으로 구성됩니다. 생성된 코드를 엄격하게 평가하기 위해 우리는 타입 인식 출력 비교와 AST 기반 API-세맨틱 페일백 분석을 결합한 다층 평가 프레임워크도 제안합니다. 이는 실행 가능성과 화학적 정확성을 함께 측정합니다. 우리는 9 개의 최첨단 코딩 LLM 을 체계적으로 평가하고 3 가지 실세계 분자 바이브 코딩 패러다임을 비교하여 AI 가속화된 분자 발견에서 LLM 의 코딩 능력을 진단하는 실제적이고 세분화된 테스트베드를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MolViBench: 분자 바이브 코딩 (Molecular Vibe Coding) 성능 평가 벤치마크

요약

핵심 포인트

댓글