AI가 신약 개발을 어떻게 혁신하고 있는가: 5년 대신 46일

나를 얼어붙게 만든 숫자: 46일. 섬유증 (fibrosis)을 위한 새로운 약물 후보 물질을 식별하는 데 AI 시스템이 걸린 시간입니다. 단일 약물을 시장에 출시하기 위해 업계 표준인 5년과 약 20억 달러가 소요되는 것과 비교해 보십시오. 그 비율은 2배나 10배가 아닙니다. 대략 40배 더 빠릅니다.

이것은 공상 과학이 아닙니다. 2019년, Insilico Medicine은 자사의 생성형 AI (generative AI) 플랫폼이 타겟 발견 (target discovery)부터 선도 화합물 (lead compound) 도출까지 단 46일 만에 DDR1 키나아제 (kinase) 억제제를 식별했다는 결과를 발표했습니다. 그 이후로 AI가 설계한 약물들이 임상 2상 (Phase II clinical trials)에 진입했습니다. 2024년에 출시된 DeepMind의 AlphaFold 3는 이제 단백질, DNA, RNA 및 결합된 리간드 (ligands)의 3D 구조를 몇 초 만에 예측할 수 있습니다. 이는 과거에 박사 과정 학생들이 단백질 하나를 해결하기 위해 논문 한 권 분량의 시간을 쏟아야 했던 일입니다.

이 기사는 AI 신약 개발이 내부적으로 실제로 어떻게 작동하는지 분석합니다. 군더더기 없이 파이프라인 (pipeline)만 다룹니다.

문제점: 신약 개발이 왜 이렇게 느린가

전통적인 신약 개발은 선형적이고 무차별적인 (brute-force) 경로를 따릅니다:

타겟 식별 (Target identification) (2~3년): 질병과 연관된 단백질이나 유전자를 찾습니다. 이는 수년간의 학술 문헌 검토, 유전자 녹아웃 (gene knockout) 연구, 그리고 근거 있는 추측을 의미합니다.
히트 발견 (Hit discovery) (1~2년): 타겟에 대해 수백만 개의 화학 화합물을 스크리닝 (screening) 합니다. 고속 대량 스크리닝 (High-throughput screening) 로봇은 하루에 약 100,000개의 화합물을 테스트할 수 있지만, 그럼에도 불구하고 10억 개의 화합물 라이브러리를 처리하는 데는 수개월이 걸립니다.
선도 화합물 최적화 (Lead optimization) (2~3년): 화학자들이 효능 (potency), 선택성 (selectivity), 그리고 안전성을 개선하기 위해 최적의 히트 화합물을 반복적으로 수정합니다. 각 사이클은 합성 및 테스트에 수 주가 소요됩니다.
전임상 테스트 (Preclinical testing) (1~2년): 동물 모델, 독성학 (toxicology), 그리고 제형 (formulation) 단계입니다. 대부분의 후보 물질이 여기서 실패합니다.
임상 시험 (Clinical trials) (6~7년): 인간을 대상으로 하는 임상 1상, 2상, 3상입니다. 임상에 진입하는 약물의 약 90%가 실패합니다.

총합: 10~~15년, 10억~~20억 달러, 그리고 90%의 실패율. 이는 수치가 매우 처참한 확률 게임입니다.

AI가 각 단계를 변화시키는 방법

Traditional vs AI-Powered Drug Discovery

비교: 주요 지표에 따른 전통적인 신약 개발 파이프라인 vs AI 지원 방식

AI는 파이프라인을 대체하는 것이 아니라, 모든 단계에서 이를 압축합니다.

1단계: 타겟 식별 (Target Identification) → AI 기반 오믹스 분석 (AI-Powered Omics Analysis)

논문을 수동으로 검토하는 대신, AI 모델은 멀티오믹스 (multi-omics) 데이터, 즉 유전체학 (genomics), 단백질체학 (proteomics), 전사체학 (transcriptomics), 대사체학 (metabolomics) 데이터를 흡수하여 어떤 단백질이 질병과 인과관계가 있는지 예측합니다. 그래프 신경망 (GNNs)은 단백질-단백질 상호작용 네트워크를 모델링하여 인간이 놓칠 수 있는 "약물 투여 가능 (druggable)" 타겟을 식별합니다.

# 단순화된 예시: 질병-유전자 연관성을 점수화하기 위한 GNN 사용
import torch
from torch_geometric.nn import GCNConv
...

Insilico Medicine의 PandaOmics 플랫폼은 이러한 접근 방식을 사용하여, GNN과 생물 의학 문헌으로 학습된 트랜스포머 (transformer) 기반 NLP 모델을 결합함으로써 타겟의 신규성과 신뢰도에 따라 순위를 매깁니다.

2단계: 히트 발견 (Hit Discovery) → 생성 화학 (Generative Chemistry)

여기가 진정한 마법이 일어나는 지점입니다. 기존 화합물을 스크리닝하는 대신, 생성형 AI (generative AI)는 새로운 분자를 발명합니다.

생성 화학 모델, 일반적으로 변이형 오토인코더 (VAEs), 생성적 적대 신경망 (GANs), 또는 강화학습 (reinforcement learning) 에이전트는 ChEMBL 및 ZINC(수십억 개의 약물 유사 분자)와 같은 화학 데이터베이스를 통해 학습됩니다. 학습이 완료되면 다음과 같은 작업이 가능합니다:

원하는 특성(결합 친화도 (binding affinity), 용해도 (solubility), 혈뇌장벽 (blood-brain barrier) 투과성)을 가진 새로운 분자 생성
알려진 활성 화합물 주변의 화학 공간을 탐색하여 기존 리드 (leads) 최적화
초기 단계부터 독성 하위 구조 및 불리한 약동학 (pharmacokinetics) 특성 회피

# 개념적 예시: 새로운 약물 유사 분자를 생성하는 분자 VAE
# ChEMBL의 SMILES 문자열로 학습됨
class MolecularVAE(torch.nn.Module):
...

46일 만에 달성한 Insilico의 결과는 42개의 서로 다른 생성 모델 (generative models)을 결합한 Chemistry42 플랫폼을 사용했습니다. 이 모델 중 일부는 신규성 (novelty)을 위해, 일부는 합성 가능성 (synthetic feasibility)을 위해, 또 일부는 다중 속성 최적화 (multi-property optimization)를 위해 사용되었으며, 이들의 출력값을 앙상블 (ensembles)하여 최적의 후보 물질을 찾아냅니다.

3단계: 선도물질 최적화 (Lead Optimization) → 딥러닝 ADMET 예측

화학자들이 선도물질 (lead compound)을 최적화할 때는 한 번에 하나의 원자를 바꾸고 다시 테스트합니다. AI는 이를 Absorption (흡수), Distribution (분포), Metabolism (대사), Excretion (배설), 그리고 Toxicity (독성) (ADMET)를 동시에 예측하는 다중 속성 딥러닝 모델로 대체합니다.

이 모델들은 과거의 분석 데이터 (assay data)와 수백만 개의 실험 측정값을 통해 학습하며, 누군가가 가상 분자를 실제로 합성하기 전에 해당 분자가 체내에서 어떻게 행동할지를 예측할 수 있습니다.

4단계: 전임상 (Preclinical) → AlphaFold & 디지털 트윈 (Digital Twins)

이 단계에서 AlphaFold 3가 등장합니다. 타겟 단백질 (target protein)을 확보했다면, 여기에 결합하는 분자를 설계하기 위해 그 3D 구조를 알아야 합니다. 전통적인 방식 (X-ray 결정학 (X-ray crystallography), 저온 전자 현미경 (cryo-EM))은 구조당 수개월에서 수년이 걸리며 수천 달러의 비용이 발생합니다.

AlphaFold 3는 구조를 단 몇 초 만에 예측합니다. 또한 단백질이 DNA, RNA, 그리고 저분자 리간드 (small molecule ligands)와 어떻게 상호작용하는지도 모델링할 수 있으며, 기본적으로 생체 분자 전체의 플레이북 (biomolecular playbook)을 다룹니다. 이 모델은 2024년 11월에 오픈 소스로 공개되었으며, 학계 연구실들은 이미 저해상도 실험 구조에서는 보이지 않았던 약물 결합 포켓 (drug binding pockets)을 식별하는 데 이를 사용하고 있습니다.

엔드 투 엔드 (End-to-end) AI 신약 발굴 파이프라인: 타겟 식별부터 선도물질 최적화까지, 각 단계별 도구 활용

지금까지의 결과

수치들이 쌓이기 시작하고 있습니다:

지표	전통적 방식	AI 지원 방식	개선 사항
타겟에서 선도물질까지의 시간 (Target-to-lead time)	3–5년	12–18개월	약 3배 빠름
...

구체적인 사례: Insilico Medicine의 ISM001-055 (항섬유화제)는 2022년에 임상 1상 (Phase I)을 완료하고 2상 (Phase II)에 진입했습니다. Recursion Pharmaceuticals는 여러 개의 AI 발견 후보 물질을 임상 시험 중에 보유하고 있습니다. BenevolentAI는 지식 그래프 (Knowledge Graph) AI를 사용하여 baricitinib을 COVID-19 치료제로 식별했으며, 이는 이후 RECOVERY 임상 시험에서 검증되어 FDA의 승인을 받았습니다.

진단 분야에서는 AI 영상 모델이 이제 영상의학과 전문의와 대등하거나 이를 능가하고 있습니다. 2020년 Nature에 발표된 연구에 따르면, Google Health의 딥러닝 (Deep Learning) 모델은 유방 촬영술 (Mammogram)에서 인간 영상의학과 전문의보다 위양성 (False Positives)은 5.7% 적게, 위음성 (False Negatives)은 9.4% 적게 유방암을 검출했습니다. 69개의 연구를 대상으로 한 메타 분석 (Meta-analysis) 결과, AI 시스템은 여러 암 유형에 대해 0.87–0.95의 AUC를 달성한 반면, 인간 판독자는 0.85–0.88를 기록했습니다.

개발자 관점

이 분야에 어떻게 진입할지 고민 중인 소프트웨어 엔지니어라면, 진입 장벽은 생각보다 낮습니다. 신약 개발은 점점 더 생물학적 문제뿐만 아니라 **데이터 및 컴퓨팅 문제 (Data and Compute Problem)**가 되어가고 있습니다.

시작하는 방법:

데이터 형식 학습: SMILES 문자열은 분자를 텍스트로 표현합니다. RDKit (Python 라이브러리)을 사용하면 이를 파싱 (Parse), 조작 및 시각화할 수 있습니다.
공개 데이터셋: ChEMBL (생물 활성 데이터가 포함된 200만 개 이상의 화합물), PDB (단백질 구조), PubChem (1억 개 이상의 화합물).
사전 학습된 모델 (Pretrained models): HuggingFace는 ChemBERTa 및 MolFormer와 같은 화학 모델을 호스팅합니다. 이들은 SMILES 문자열로 사전 학습된 BERT 스타일의 트랜스포머 (Transformer) 모델입니다.
단백질 구조: AlphaFold 3 가중치 (Weights)를 사용할 수 있습니다. Meta의 ESM은 아미노산 서열에 대해 GPT처럼 작동하는 단백질 언어 모델 (Protein Language Models)을 제공합니다.

# 빠른 시작: 사전 학습된 분자 트랜스포머 로드하기
from transformers import AutoTokenizer, AutoModel

...

아직 작동하지 않는 것들

열풍은 실재하지만, 한계 또한 실재합니다:

AI가 설계한 분자(AI-designed molecules)는 합성하기 어려울 수 있습니다. 모델이 완벽한 결합 친화도(binding affinity)를 가진 분자를 생성하더라도, 실제 화학자가 실험실에서 만들 수 없는 경우가 있습니다. 합성 가능성(Synthetic accessibility) 모델이 개선되고는 있지만 아직 해결된 문제는 아닙니다.
임상 시험 예측(Clinical trial prediction)은 취약합니다. 임상 3상(Phase III) 성공을 안정적으로 예측할 수 있는 모델을 훈련하기에는 임상 시험 데이터(지금까지 수행된 시험은 약 50만 건에 불과함)가 충분하지 않습니다. 오늘날 대부분의 AI 임상 예측은 정교한 추측에 가깝습니다.
생물학이 모두 해결된 것은 아닙니다. 우리는 여전히 질병의 메커니즘을 완전히 이해하지 못하고 있습니다. AI는 데이터에서 패턴을 찾아내지만, "암"은 단 하나의 질병이 아니라 수백 가지의 질병입니다. 임상 시험 실패율이 90%에 달하는 상황은 AI만으로는 낮아지지 않고 있습니다.
데이터 품질. 공개된 생물학적 활성(bioactivity) 데이터는 노이즈가 많고, 편향되어 있으며, 불완전합니다. "쓰레기가 들어가면 쓰레기가 나온다(Garbage in, garbage out)"는 원칙이 매우 가혹하게 적용됩니다.

결론 (The Bottom Line)

AI가 다음 주 화요일에 바로 "암을 정복"하지는 않을 것입니다. 하지만 AI는 이미 신약 발견(drug discovery)을 더 빠르고, 저렴하며, 더 체계적으로 만들고 있습니다. Insilico Medicine이 보여준 46일이라는 결과는 2019년의 개념 증명(proof of concept)이었습니다. 오늘날 AI가 설계한 약물들은 인간 대상 임상 시험 단계에 있습니다. 5년 뒤에는 AI 지원 발견(AI-assisted discovery)이 예외가 아닌 기본값이 될 것입니다.

진정한 돌파구는 단일 모델에 있는 것이 아닙니다. 그것은 조합에 있습니다: 타겟 식별(target ID)을 위한 그래프 신경망(graph neural networks), 분자 설계를 위한 생성 화학(generative chemistry), 구조 예측을 위한 AlphaFold, 그리고 문헌 마이닝(literature mining)을 위한 트랜스포머(transformers)가 모두 결합되어, 과거에는 직관과 피펫, 그리고 운에 의존했던 파이프라인(pipeline)에 데이터를 공급합니다.

개발자들에게 도구는 이미 준비되어 있습니다. 데이터셋은 공개되어 있고, 모델은 오픈 소스입니다. 유일한 질문은 당신이 단순한 CRUD 앱을 만들고 싶은지, 아니면 의학의 미래를 구축하는 데 기여하고 싶은지뿐입니다.

AI + 과학 중 어떤 분야가 가장 흥미로우신가요? 신약 개발, 재료, 기후 등 댓글로 알려주세요.