HuggingFace헤드라인2026. 05. 07. 01:28

SAIR: AI 기반 구조 지능으로 제약 R&D 가속화

요약

SAIR(Structure-Aided Interaction Repository)는 약물-리간드 3D 구조와 실험적으로 측정된 IC₅₀ 효능 데이터를 결합한 대규모 오픈 소스 데이터셋입니다. 이 데이터셋은 AI 기반 신약 개발의 핵심적인 병목 현상이었던 '구조 정보'와 '효능 데이터' 간의 격차를 메우며, 연구자들이 500만 개 이상의 고정확도 단백질-리간드 구조에 대한 접근성을 제공합니다. SAIR는 단순한 데이터셋을 넘어, AI 모델 학습 및 검증을 위한 전략적 자산으로서 제약 R&D 파이프라인 전체를 가속화하는 것을 목표로 합니다.

핵심 포인트

SAIR는 약물-리간드 3D 구조와 IC₅₀ 효능 데이터를 결합한 대규모 오픈 소스 데이터셋으로, AI 기반 신약 개발의 핵심 자산입니다.
500만 개 이상의 고정확도 단백질-리간드 복합체 구조를 제공하며, 이는 기존 실험적 한계를 극복하고 '암흑 단백질체' 연구에 기여합니다.
SAIR는 오픈 소스(CC BY 4.0)로 무료 공개되어 상업 및 비상업 R&D 파이프라인에 즉시 활용 가능합니다.
데이터셋 생성 과정에서 NVIDIA H100 클러스터와 고도화된 GPU 컴퓨팅 워크플로우를 사용하여 효율성을 극대화했습니다.
모든 예측 복합체는 PoseBusters 같은 산업 표준 도구로 엄격하게 검증되어 데이터의 신뢰성이 높습니다.

구조적으로 강화된 IC50 데이터베이스 (

SAIR

**),

약물-리간드 3D 구조와 실험적으로 측정된 IC₅₀ 라벨이 결합된 가장 큰 데이터셋으로, 분자 구조와 약물 효능을 직접 연결하며 훈련 데이터의 장기적 부족을 극복합니다. 이 데이터셋은 이제 Hugging Face 에서 제공되며, 연구자들이 처음으로 AI 생성한 고정확도 단백질 - 리간드 3D 구조 500 만 개에 대해 공개 액세스를 갖게 되었습니다. 각 구조는 검증된 경험적 결합 효능 데이터와 함께 연결됩니다.

SAIR 는 오픈 소스 데이터셋으로, 상업적 및 비상업적 R&D 파이프라인을 즉시 실행할 수 있도록 허용되는 CC BY 4.0 라이선스 하에 무료로 공개되어 있습니다. 데이터셋 이상으로 SAIR 는 AI 기반 약물 설계의 장기적인 데이터 격차를 연결하는 전략적 자산입니다. 제약, 바이오테크, 테크 - 바이오 리더들은 R&D 를 가속화하고 타겟 범위를 확장하며 AI 모델을 초강력하게 만들 수 있게 합니다. 이는 고비용, 긴 약물 설계 및 최적화를 in silico 로 이전합니다. 즉, 초기 아이디어부터 임상 후보물까지의 더 짧은 hit-to-lead 타임라인, 더 효율적인 lead 최적화, 더 적은 끝없는 프로젝트, 그리고 더 예측 가능한 경로를 제공합니다.

AI 와 컴퓨터 보조 설계는 새로운 약물의 개발을 획기적으로 가속화하는 데 큰 잠재력을 가지고 있습니다. 수십 년 동안 과학자들은 질병 경로로 설명된 프롬프트에서 강력한, 비독성 및 효능 화합물을 식별하거나 설계할 수 있는 AI 를 꿈꿨습니다. 이는 실제로 몇 분 만에 컴퓨터에서 약물 R&D 년수를 압축합니다. 그러나 이 비전은 AI 가 분자 구조에만 기반하여 효능, 독성 등 중요한 약물 특성을 예측하는 능력에 의해 제한됩니다.

또한, 전통적인 구조 - 기반 발견은 신뢰할 수 있는 3D 구조 결정으로 인해 초기에 종종 느려집니다. 3 차원 분자 구조는 분자의 기능성, 역학 및 상호작용을 결정하며, 이는 잠재적 약물 후보물이 인간 단백질 타겟에 결합될 때 특히 중요합니다.

실험 방법 (예: X-ray crystallography 와 cryo-EM) 은 광범위한 시간과 투자를 필요로 하며, 많은 유망한 질병 타겟은 여전히 실험적으로 검증된 구조 정보를 가지고 있지 않습니다. 컴퓨터 시뮬레이션은 3D 구조와 결합 친화도를 예측하는 장벽을 낮추는 데 도움을 주었습니다. 그러나 단백질 접힘 및 도킹 (AlphaFold 와 Vina 등) 을 위한 이전 세대의 알고리즘은 분자와 단백질의 정적 스냅샷만 예측합니다 (실제로는 본질적으로 역학적이며 형태를 변화시킵니다).

SAIR 는 100 만 개의 고유한 계산적으로 co-folded 단백질 - 리간드 쌍을 컴파일하여, 최종적으로 524 만 개의 다른 3D 복합체 (각 쌍당 5 가지 다른 co-folded 구조) 를 생성합니다. 각 구조는 ChEMBL 또는 BindingDB 에서의 큐레이티드 IC₅₀ 측정과 함께 연결되어 있습니다. 이는 처음에 고품질 3D 구조와 약물 효능 사이의 확장 가능한 링크를 제공하며, AI 기반 발견을 방해해 온 역사적인 데이터 격차를 연결합니다. Boltz-2 와 같은 유사한 데이터로 훈련된 심층 학습 친화도 모델은 전통적인 첫 원리 접근법보다 최대 1000 배의 속도 향상을 제공합니다.

SAIR 생성은 고성능 AI 컴퓨팅의 주요 성과였습니다. Boltz1이라는 코폴딩 (cofolding) AI 모델을 사용하여 NVIDIA DGX Cloud 를 통해 Google Cloud Platform 을 통해 760 개의 NVIDIA H100 프로세서 클러스터에서 SAIR 데이터셋을 계산하기 위해 130,000 시간 이상의 GPU 시간을 사용했습니다.

인프라 및 워크로드 최적화에 대한 긴밀한 협업을 통해 고해상도의 노드, 운영자 (operator), 스케줄러, 그리고 GPU 지표를 포착하는 것은 NVIDIA AI Accelerator 와 SandboxAQ 엔지니어링 팀이 병목 현상을 식별하고 최적의 워크로드 처리량을 달성하기 위해 구성을 최적화하는 데 도움이 되었습니다.

결과적으로 두 팀은 SAIR 데이터셋 생성에 대해 > 95% GPU 컴퓨팅 활용도를 달성했습니다. 이는 SAIR 를 3 주 만에 생성할 수 있게 했습니다 (원래 추정의 3 개월 대비, 4 배 이상 속도 향상) – 그리고 오늘날의 최첨단 기업 컴퓨팅 환경과 원활하게 통합되는 고도화된 GPU 네이티브 컴퓨팅 워크플로우를 만들었습니다.

그런데 이렇게 방대한 양의 데이터를 생성하는 것은 이야기의 절반에 불과합니다. 품질에 대한 신뢰성이 중요하기 때문에, 모든 예측된 복합체 (complex) 는 약물 발견에서 구조 관련 AI 를 벤치마킹하는 산업 표준 오픈소스 도구인 PoseBusters로 엄격한 검증을 받았습니다. 이 도구는 화학적 합리성과 물리적 타당성을 확인합니다.

결과는 SAIR 의 97% 가 모든 검사를 통과했습니다. PoseBusters 검증 외에도, 우리는 SAIR 의 합성 구조와 실험적 IC₅₀ 값을 대상으로 경험적 점수 함수 (empirical scoring functions), 3D CNNs, 그리고 그래프 신경망 (graph neural networks) 등 주요 친화도 예측 방법을 벤치마크했습니다. 이러한 연구의 자세한 결과는 bioRxiv 에 있는 과학 논문에서 확인할 수 있습니다.

SAIR 데이터는 새로운 모델 및 후속 모의 실험 (modelling), 스크리닝, 설계에 대한 벤치마킹을 위한 신뢰할 수 있는 기반입니다.

약물 발견의 지속적인 도전 과제는 "암흑 단백질체 (dark proteome)" 또는 실험적 구조가 존재하지 않는 질병 관련 단백질입니다. SAIR 는 실험 데이터가 부족한 곳에도 AI 가 예측한 복합체를 제공하여 이러한 미지의 영역을 조명합니다. 예를 들어, SAIR 데이터셋의 단백질 중 40% 이상은 리간드 (ligand) 가 있거나 없든 Protein Data Bank (PDB) 에 구조가 존재하지 않습니다. SAIR 는 기존 AI 모델의 가장 큰 도전 과제인 데이터 부족으로 인한 낮은 일반화 능력을 해결합니다. 이제 SAIR 를 통해 과학자들은 가상 스크리닝 및 리드 최적화를 안내할 신뢰할 수 있는 모델 예측을 갖춘 이전에 약물 개발이 불가능하다고 간주된 표적을 탐구할 수 있습니다.

또한, SAIR 의 다중 표적 폭 (cross‑target breadth) 은 다약리학 패턴 (polypharmacology patterns) 을 발견하고 단일 분자가 여러 단백질과 상호작용하는 방식을阐明합니다. 이러한 풍부한 상호작용을 활용하여, AI 모델을 훈련시켜 오프 타겟 효과를 예측하거나 새로운 재사용 기회를 식별할 수 있습니다. 실험실 작업이 시작되기 전에 화합물 프로파일에 대한 더 깊은 이해를 조직에 제공합니다.

SAIR 는 Hugging Face 에서 무료로 제공됩니다. Hugging Face 에서 SAIR 를 가져오기 위한 빠른 가이드와 주요 테이블을 확인하고 (선택 사항) 몇 개의 구조 아카이브를 다운로드하는 방법을 소개합니다.

우리는 Hub 를 사용하여 파일을 가져오고 pandas+pyarrow 를 사용하여 Parquet 를 읽습니다.

pip install huggingface_hub pandas pyarrow

Hugging Face 에 인증:

huggingface_hub.login(token="your_auth_token")```

이것은 Hub 에서 파일을 가져오고 DataFrame 으로 로드합니다.

```python
from huggingface_hub import hf_hub_download
import pandas as pd
parquet_path = hf_hub_download(
...

구조 파일은 structures_compressed/ 디렉터리에 여러 개의 .tar.gz 아카이브로 제공됩니다.

아래 코드로 목록을 생성하고 필요한 파일을 선택합니다.

from huggingface_hub import list_repo_files
files = [f.split("/")[-1] for f in list_repo_files("SandboxAQ/SAIR", repo_type="dataset")
if f.startswith("structures_compressed/") and f.endswith(".tar.gz")]
...

각 아카이브는 크기가 클 수 있습니다 (약 10 GB). 필요한 것만 다운로드하고 로컬에서 추출합니다.

import os, tarfile
from huggingface_hub import hf_hub_download
dest = "sair_structures"
...

이 스크립트의 전체 버전은 더 강력한 로깅 및 유효성 검증을 포함하여 README 파일에 포함되어 있습니다. 자세한 내용은 SAIR 홈페이지를 방문하거나 bioRxiv 에서 우리의 논문을 읽거나, NVIDIA 와 함께하는 25 분짜리 공동 웹 세미나를 시청하세요. 우리는 SAIR 과 데이터 구조를 설명합니다. 광범위한 문서화, 튜토리얼 및 예제 벤치마크가 제공되어 사용 가속화와 내부 채택을 촉진합니다.

의약품 발견의 미래는 데이터 기반이며, AI 를 가속화하고 확장 가능한 고품질의 구조적 통찰력을 기반으로 합니다. 우리는 아직 프롬프트 만으로 효과적인 약물 요법을 설계할 수 있는 AI 가 없으며, SAIR 는 새로운 데이터와 통찰력으로 연구자들이 그 목표에 더 가까이 다가갑니다. 이는 AI 를 가속화한 R&D 파이프라인에서도 몇 년을 단축할 수 있습니다.

SAIR 를 사용하여 연구자들이 무엇을 구축할지 기다릴 수 없습니다. SandboxAQ 전문가들은 발견 프로세스 전반에 걸쳐 지원할 것입니다.

저자들과 연락하거나 SAIR 데이터셋 토론 페이지에 게시하세요.

저자들: Arman Zaribafiyan, Georgia Channing, Zane Beckwith, 그리고 Rudi Plesch

AI 자동 생성 콘텐츠

원문 바로가기

SAIR: AI 기반 구조 지능으로 제약 R&D 가속화

요약

핵심 포인트

댓글