AlphaFold와 단백질 구조 예측의 혁명: 개발자가 알아야 할 사항

단백질 접힘 (Protein folding)은 50년 된 난제였습니다. 과학자들은 이를 "생물학의 성배 (holy grail of biology)"라고 불렀습니다. 즉, 아미노산 사슬이 어떻게 기능(function)을 결정하는 정교한 3D 구조로 자발적으로 접히는지에 대한 질문입니다. 그러다 2020년, DeepMind의 AlphaFold가 이를 해결했습니다. 대략적으로 해결한 것도, 이론적으로 해결한 것도 아닙니다. CASP(2년마다 열리는 단백질 구조 예측 경진대회) 주최측이 이 문제가 사실상 종결되었다고 선언할 만큼 충분히 잘 해결했습니다.

여기서 어떤 일이 일어났는지, 모델의 내부 작동 원리는 무엇인지, 그리고 이것이 여러분이 오늘날 만드는 도구들에 왜 중요한지 설명하겠습니다.

50년이 걸린 문제

단백질은 아미노산의 사슬입니다. 20가지의 표준 아미노산이 있으며, 일반적인 단백질 사슬은 50개에서 2,000개의 잔기 (residues) 길이로 이어집니다. 가능한 접힘 구조의 수는 천문학적입니다. 레빈탈의 역설 (Levinthal's paradox)은 100개 잔기 단백질의 가능한 형태 (conformations)가 $10^{300}$개에 달할 것으로 추정했습니다. 무차별 대입 탐색 (Brute-force search)은 불가능합니다. 무작위 샘플링 (Random sampling)은 우주의 나이보다 더 오래 걸릴 것입니다.

하지만 단백질은 세포 내에서 밀리초 단위로 안정적으로 접힙니다. 자연은 지름길을 찾아냈습니다. 그 지름길을 계산적으로 풀어내는 것이 목표였습니다.

조합 폭발 (combinatorial explosion) 문제: 100개 잔기 단백질은 가시 우주의 원자 수보다 더 많은 가능한 접힘 구조를 가집니다.

전통적인 접근 방식은 세 가지 진영으로 나뉘었습니다:

물리 기반 시뮬레이션 (Physics-based simulation) (분자 역학 (molecular dynamics)): 모든 원자와 결합력 (bond force)을 모델링합니다. 계산 비용이 매우 높습니다. 단백질 역학의 1마이크로초(microsecond)를 시뮬레이션하는 데 슈퍼컴퓨터 클러스터로도 수개월이 걸립니다.
템플릿 기반 모델링 (Template-based modelling) (상동성 모델링 (homology modelling)): 유사한 단백질의 구조가 이미 알려져 있다면 이를 스캐폴드 (scaffold)로 사용합니다. 진화적으로 가까운 친척 관계가 있는 경우에는 효과적이지만, 새로운 단백질 (novel proteins)에 대해서는 실패합니다.
에너지 최소화 (Energy minimisation) (ab initio): 가장 낮은 에너지 상태의 형태 (conformation)를 찾으려고 시도합니다. 국소 최솟값 (local minima)에 빠지는 문제가 있습니다. AlphaFold 이전의 가장 뛰어난 접근 방식이었던 Rosetta는 CASP 벤치마크에서 약 60%의 정확도를 달았습니다.

이 중 어떤 방식도 확장성 (scale)을 갖추지 못했습니다. UniProt 데이터베이스에 있는 2억 개의 단백질을 처리할 수 있는 방법은 없었습니다.

AlphaFold의 실제 작동 원리

AlphaFold는 단순히 "단백질 서열에 트랜스포머 (transformer)를 던져 넣는 것"이 아닙니다. 이 아키텍처는 파이프라인 내에서 함께 작동하는 세 가지 주요 구성 요소로 이루어져 있습니다.

AlphaFold의 3단계 파이프라인: MSA 임베딩 (MSA embedding)을 통한 서열 처리, IPA 어텐션 (IPA attention)을 포함한 구조 모듈 (structure module), 그리고 반복적 정교화 (iterative refinement)를 통한 재순환 (recycling).

1단계: 다중 서열 정렬 (Multiple Sequence Alignment, MSA) 임베딩

모델은 단일 단백질 서열만으로 작동하지 않습니다. 먼저 유전체 데이터베이스를 검색하여 진화적으로 관련된 단백질을 찾고, 이를 MSA로 정렬합니다. 그 직관은 다음과 같습니다: 항상 함께 돌연변이를 일으키며 공동 진화하는 잔기 (residues)들은 3D 구조상에서 물리적으로 가까울 가능성이 높다는 것입니다.

AlphaFold는 일련의 축 방향 어텐션 레이어 (axial attention layers, 정렬 행렬에 대한 행 방향 및 열 방향 어텐션)를 통해 이 MSA를 처리합니다. 이를 통해 쌍 표현 (pair representation)이 생성됩니다. 이는 각 항목 (i, j)가 잔기 i와 잔기 j 사이의 예측된 거리와 방향을 인코딩하는 N×N 행렬입니다.

# 단순화된 MSA 처리 흐름
# 입력: MSA 행렬 (시퀀스 수 × 잔기 수)
# 출력: 쌍 표현 (Pair representation) (잔기 수 × 잔기 수 × 채널 수)
...

Stage 2: 구조 모듈 (The Structure Module)

여기가 바로 마법이 일어나는 지점입니다. 구조 모듈은 쌍 표현 (Pair representation)을 가져와서 **불변 점 주의 집중 (Invariant Point Attention, IPA)**을 사용하여 잔기당 하나씩 할당된 3D 좌표 세트를 반복적으로 업데이트합니다.

IPA는 전역 회전 (Global rotation) 및 이동 (Translation)에 대해 불변인 형태의 어텐션 (Attention)입니다. 표준 어텐션 (Standard attention)은 3D 기하학적 구조를 놓치게 됩니다. IPA는 각 잔기의 로컬 좌표계 (Local coordinate frame, 즉 3D 위치와 방향)를 어텐션 계산에 임베딩하여, 모델이 절대적인 위치가 아닌 상대적인 위치를 바탕으로 추론할 수 있도록 합니다.

각 반복 (Iteration) 단계에서 IPA는 쌍 표현으로부터 예측된 쌍별 거리 (Pairwise distances)와 각도를 기반으로 잔기 위치를 업데이트합니다. 이 모듈은 8회의 반복 (8회의 "재순환 (Recycling)" 단계) 동안 실행되며, 각 반복은 이전 예측을 정교화합니다.

반복 1: 대략적인 백본 추적 (Backbone trace), 실제 값(Ground truth)으로부터 약 20 Å RMSD 차이
반복 3: 이차 구조 요소 (Secondary structure elements, 알파 헬릭스, 베타 시트)가 해소됨
반복 6: 측쇄 (Side-chain) 방향이 고정되기 시작함
...

Stage 3: 재순환 (Recycling)

구조 모듈의 출력은 다음 패스의 추가적인 특징 (Features)으로서 MSA 임베딩 (MSA embedding)으로 다시 피드백됩니다. 이 재순환 루프는 3회 실행됩니다 (각 패스 내의 8회 IPA 반복과 혼동해서는 안 됩니다). 각 재순환은 CASP 지표에서 정확도를 약 5-10% 향상시킵니다.

핵심적인 통찰은 단백질 접힘 (Protein folding) 역시 본질적으로 반복적이라는 점입니다. AlphaFold는 물리적 과정을 모방합니다. 즉, 거친 구조가 먼저 형성된 다음 로컬 세부 사항이 정교해지는 과정을 거치지만, 이를 원자 시뮬레이션 (Atomic simulation) 대신 학습된 잠재 공간 (Latent space)에서 수행합니다.

코드: AlphaFold 로컬 실행하기

DeepMind 클러스터가 필요하지 않습니다. 오픈 소스 구현체는 단일 GPU에서도 실행됩니다. 다음은 실질적인 설정 방법입니다:

# ColabFold (MMseqs2 + AlphaFold 래퍼)를 통해 설치
# pip install colabfold colabfold[alphafold]

...

소비자용 하드웨어 벤치마크 (Benchmarks on consumer hardware):

하드웨어	~100 잔기 단백질	~500 잔기 단백질	~1000 잔기 단백질
A100 80GB	2분	8분	22분
...

10GB 제한은 중요합니다: AlphaFold의 메모리 사용량은 쌍 표현 행렬 (pair representation matrix)로 인해 서열 길이(sequence length)에 따라 대략 $O(N^2)$로 확장됩니다. 10GB GPU에서 약 800 잔기 이상의 단백질을 처리하려면 그래디언트 체크포인팅 (gradient checkpointing) 또는 CPU 오프로딩 (CPU offloading)이 필요합니다.

AlphaFold가 하룻밤 사이에 변화시킨 세 가지 사항

AlphaFold 이전과 이후의 구조 생물학 타임라인: 실험적 구조 (파란색) vs 예측된 구조 (주황색). 변곡점은 2020년 말입니다.

1. 신약 개발 타임라인의 압축 (Drug Discovery Timeline Compression)

전통적인 구조 기반 신약 설계 (structure-based drug design)는 실험적으로 해결된 단백질 구조 (X-선 결정학 (X-ray crystallography) 또는 초저온 전자현미경 (cryo-EM))를 필요로 했으며, 타겟당 6개월에서 18개월이 소요되었습니다. 이제 AlphaFold 예측값은 1시간 이내에 시작 구조 (starting structures) 역할을 수행합니다.

2023년, Insilico Medicine은 AlphaFold로 예측된 구조를 사용하여 타겟 식별부터 전임상 후보 물질 도출까지 12개월 만에 새로운 CDK20 억제제를 발견했습니다. 이는 역사적으로 3~5년이 걸리던 과정입니다.

2. 단백질 우주의 확장 (The Protein Universe Doubled)

2022년 7월, DeepMind와 EMBL-EBI는 UniProt 데이터베이스에 있는 2억 1,400만 개의 모든 단백질에 대한 예측 구조를 공개했습니다. 이 전에는 50년 동안의 구조 생물학을 통해 약 190,000개의 단백질 구조가 실험적으로 해결되었으며, 이는 알려진 단백질의 약 0.1%에 불과했습니다.

하룻밤 사이에 구조적 커버리지가 0.1%에서 거의 100%로 급증했습니다.

3. 메타게놈학의 실용화 (Metagenomics Became Actionable)

환경 DNA 시퀀싱 (Environmental DNA sequencing)은 알려진 친척 관계가 없는 수백만 개의 새로운 단백질 서열을 생성합니다. AlphaFold 이전에는 이러한 서열들은 주석 달기(annotation)가 불가능한 막다른 길(dead ends)이었습니다. 하지만 이제는 이를 폴딩(fold)할 수 있습니다. 메타게놈 서열을 폴딩하고 예측된 활성 부위(active sites)를 스크리닝함으로써, 플라스틱 분해, 탄소 포집 및 산업적 촉매 작용을 위한 새로운 효소들이 발견되고 있습니다.

AlphaFold 3가 추가된 사항 (2026년 6월)

Google DeepMind와 Isomorphic Labs에서 출시한 3세대 모델은 단일 사슬 단백질(single-chain proteins)을 넘어 프레임워크를 확장합니다:

단백질 복합체 (Protein complexes): 여러 단백질이 어떻게 함께 도킹(dock)하는지 예측합니다. 이 모델은 모든 사슬을 합쳐 최대 5,000개의 잔기(residues)를 처리할 수 있습니다.
단백질-리간드 상호작용 (Protein-ligand interactions): 저분자 결합 부위(binding sites) 및 친화도(affinities)를 예측합니다. 이는 신약 개발(drug discovery)의 핵심 기능으로, 이제 예측된 결합 포켓(binding pockets)에 대해 가상 화합물 라이브러리를 스크리닝할 수 있습니다.
번역 후 변형 (Post-translational modifications): 인산화(phosphorylation), 당화(glycosylation) 및 단백질의 거동을 변화시키는 기타 변형들을 다룹니다.
핵산 상호작용 (Nucleic acid interactions): DNA 및 RNA 결합 예측을 지원합니다. AlphaFold 3는 실험적 방법(experimental methods)에 근접하는 정확도로 단백질-핵산 복합체를 모델링합니다.

확산 기반 아키텍처(diffusion-based architecture)는 구조 모듈인 IPA를 임의의 생체 분자 시스템을 처리할 수 있는 더 일반적인 확산 프로세스(diffusion process)로 대체합니다:

# AlphaFold 3는 구조 생성을 위해 확산 모델(diffusion model)을 사용합니다
# 좌표를 직접 업데이트하는 AlphaFold 2의 반복적 IPA와 달리,
# AF3는 무작위 노이즈(random noise)로부터 최종 구조로 확산됩니다
...

주의할 점: AlphaFold 3는 완전히 오픈 소스(open source)가 아닙니다. 코드와 모델 가중치(model weights)는 AlphaFold Server를 통해 비상업적 용도로 공개되지만, 훈련 파이프라인(training pipeline)과 상업적 라이선싱은 Isomorphic Labs와의 파트너십이 필요합니다. 이는 AlphaFold 2가 Apache 2.0 라이선스로 완전히 공개되었던 것과는 의미 있는 변화입니다.

개발자를 위한 실질적인 시사점

이것을 사용하기 위해 생화학 박사 학위가 필요하지는 않습니다. 도구(Tooling)가 충분히 성숙해 있어, Python에 익숙한 개발자라면 5년 전의 구조 생물학자(Structural biologists)들과 경쟁할 수 있는 수준으로 단백질을 접을(Fold) 수 있습니다. 시작하는 방법은 다음과 같습니다:

ColabFold (colabfold.py): 가장 쉬운 진입점입니다. MSA(Multiple Sequence Alignment) 생성을 위해 AlphaFold 2를 MMseqs2로 래핑(Wrap)했습니다. 400개 미만의 잔기(Residues)를 가진 단백질의 경우, Google Colab의 무료 T4 GPU에서 실행됩니다.
ESMFold (Meta의 기여): MSA 없이 서열(Sequence)로부터 직접 구조를 예측하는 언어 모델(Language-model) 접근 방식입니다. AlphaFold보다 60배 빠르지만 정확도는 약 10% 낮습니다. 고처리량 스크리닝(High-throughput screening)에 유용합니다.
AlphaFold Database (alphafold.ebi.ac.uk): 2억 1,400만 개의 사전 계산된 구조를 보유하고 있습니다. 여기서 먼저 확인하십시오. 여러분이 관심 있는 단백질은 이미 구조가 예측되어 있을 가능성이 높습니다.
Chai-1 (Chai Discovery): 가중치(Weights)가 완전히 공개된 최신 오픈 모델로, 많은 벤치마크에서 AlphaFold 3와 대등한 성능을 보여줍니다. AlphaFold 3의 라이선스 문제가 우려된다면 주목할 만한 가치가 있습니다.

단백질 접힘(Protein folding) 문제는 해결되었습니다. 다음 개척지는 경쟁자들보다 더 빠르고 창의적으로 해당 구조들을 사용하는 것입니다. 도구는 준비되었습니다. 데이터베이스는 구축되었습니다. 유일한 질문은 여러분이 그것으로 무엇을 만들 것인가 하는 점입니다.

구조 예측을 통해 도움을 받을 수 있는 단백질이나 생물학적 문제는 무엇인가요? 댓글을 남겨주세요. 하나하나 모두 읽어보겠습니다.

AlphaFold와 단백질 구조 예측의 혁명: 개발자가 알아야 할 사항

요약

핵심 포인트

AlphaFold와 단백질 구조 예측의 혁명: 개발자가 알아야 할 사항

50년이 걸린 문제

AlphaFold의 실제 작동 원리

1단계: 다중 서열 정렬 (Multiple Sequence Alignment, MSA) 임베딩

Stage 2: 구조 모듈 (The Structure Module)

Stage 3: 재순환 (Recycling)

코드: AlphaFold 로컬 실행하기

AlphaFold가 하룻밤 사이에 변화시킨 세 가지 사항

1. 신약 개발 타임라인의 압축 (Drug Discovery Timeline Compression)

2. 단백질 우주의 확장 (The Protein Universe Doubled)

3. 메타게놈학의 실용화 (Metagenomics Became Actionable)

AlphaFold 3가 추가된 사항 (2026년 6월)

개발자를 위한 실질적인 시사점

댓글