MolSafeEval: AI 생성 분자의 안전성 위험을 규명하기 위한 벤치마크
요약
AI가 생성한 분자의 독성 및 반응성 등 안전성 위험을 평가하기 위한 새로운 벤치마크인 MolSafeEval을 소개합니다. 분자 안전 지식 그래프와 LLM 기반 추론을 결합하여 생성된 화합물의 위험 요소를 체계적으로 탐지하고 분석합니다.
핵심 포인트
- AI 생성 분자의 잠재적 안전성 위험을 규명하는 MolSafeEval 벤치마크 제안
- 분자 안전 지식 그래프를 활용한 체계적인 위험 탐지 및 설명 가능성 확보
- 무조건적 생성, 속성 최적화 등 4가지 주요 작업 유형에 대한 표준 프로토콜 제공
- 기존 독성 예측기의 한계를 넘어 이질적인 안전 지식을 통합하여 평가
현재의 분자 생성 벤치마크는 작업의 복잡성, 분자의 신규성, 그리고 속성 정렬 (property alignment)을 강조하지만, 중요한 우려 사항인 AI 생성 분자의 잠재적 안전성 위험은 대체로 간과하고 있습니다. 실제로 많은 생성 모델은 독성(toxic), 반응성(reactive)이 있거나 기타 위험한 특성을 가진 분자를 생성할 수 있으며, 이는 충분히 다뤄지지 않은 채 숨겨진 위험을 초래합니다. 이러한 격차를 해소하기 위해, 우리는 분자 생성의 안전성 위험을 평가하고 분석하는 데 특화된 벤치마크인 MolSafeEval을 소개합니다. 좁은 범위의 독성 예측기 (toxicity predictors)에 의존하는 이전 방식과 달리, MolSafeEval은 독성학 데이터베이스부터 위험 규칙 (hazard rules)에 이르기까지 이질적인 안전 지식을 구조화된 분자 안전 지식 그래프 (molecular safety knowledge graph)로 통합합니다. 이 그래프는 대규모 언어 모델 (Large Language Model, LLM) 기반 추론의 토대 역할을 하여, 생성된 화합물 내의 안전하지 않은 특징을 체계적으로 탐지하고 설명할 수 있게 합니다. 우리는 더 나아가 분자 생성 모델을 무조건적 생성 (unconditional generation), 속성 최적화 (property optimization), 표적 단백질 기반 설계 (target protein-based design), 그리고 텍스트 기반 생성 (text-based generation)의 네 가지 대표적인 작업 유형으로 분류하고, 각 유형에 대한 표준화된 데이터셋과 안전 평가 프로토콜을 제공합니다. 현재의 생성 방식이 가진 안전성 취약점을 체계적으로 드러냄으로써, MolSafeEval은 분자 모델을 벤치마킹하는 새로운 관점을 제공하며 더 안전하고 신뢰할 수 있는 분자 설계를 향한 필수적인 지침을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기