Launch HN: BlankBio (YC S25) – RNA를 프로그래밍 가능하게 만들기 - Insights | Molayo

안녕하세요 HN, 저희는 Phil, Ian, Jonny이며 BlankBio(https://blank.bio)를 구축하고 있습니다. 저희는 치료제를 위한 계산 도구 키트 (computational toolkit)를 구동하기 위해 RNA 파운데이션 모델 (RNA foundation models)을 학습시키고 있습니다. 첫 번째 응용 분야는 mRNA 설계이며, 저희의 비전은 어떤 생물학자라도 효과적인 치료 서열을 설계할 수 있도록 하는 것입니다. BlankBio는 이 분야에서 오픈 소스로 공개된 저희의 박사 과정 연구로부터 시작되었습니다. 모델 [2]와 API 접근이 가능한 벤치마크 [0]가 있습니다.

mRNA는 백신, 유전자 치료제, 암 치료제를 인코딩할 수 있는 잠재력을 가지고 있습니다. 하지만 효과적인 mRNA를 설계하는 것은 여전히 병목 현상 (bottleneck)으로 남아 있습니다. 오늘날 과학자들은 AUGCGUAC...와 같은 서열을 수동으로 편집하고 시행착오를 통해 결과를 테스트하며 mRNA를 설계합니다. 이는 마치 어셈블리 코드 (assembly code)를 작성하고 개별 메모리 주소를 관리하는 것과 같습니다. 현재 이 분야는 치료제 기업들을 겨냥한 자본이 넘쳐나고 있습니다: Strand ($153M), Orna ($221M), Sail Biomedicines ($440M). 하지만 이러한 문제에 접근하기 위한 도구 (tooling)는 여전히 저수준 (low-level)에 머물러 있습니다. 그것이 바로 저희가 해결하고자 하는 목표입니다.

가장 큰 문제는 mRNA 서열을 이해할 수 없다는 점입니다. 서열은 반감기 (half-life, RNA가 세포 내에서 생존하는 시간) 및 번역 효율 (translation efficiency, 단백질 출력량)과 같은 특성을 인코딩하지만, 우리는 이를 어떻게 최적화해야 하는지 알지 못합니다. 효과적인 치료를 위해서는 더 높은 정밀도가 필요합니다. 과학자들은 투여량과 부작용을 줄이기 위해 특정 세포 유형을 타겟팅하는 서열이 필요합니다.

저희는 RNA 설계자들이 더 높은 수준의 추상화 (abstraction) 단계에서 작동하는 미래를 구상합니다. 다음과 같은 코드를 상상해 보세요:

seq = "AUGCAUGCAUGC..."
seq = BB.half_life(seq, target="6 hours")
seq = BB.cell_type(seq, target="hepatocytes")
...

그곳에 도달하기 위해서는 사전 학습된 모델 (pre-trained models)로부터 일반화 가능한 RNA 임베딩 (embeddings)이 필요합니다. 박사 과정 동안 Ian과 저는 RNA를 위한 자기 지도 학습 (self-supervised learning, SSL) 목적 함수 (objectives)에 대해 연구했습니다. 이 접근 방식은 레이블이 없는 데이터 (unlabeled data)로 학습할 수 있게 해주며 다음과 같은 장점이 있습니다: (1) 노이즈가 많은 실험 데이터가 필요하지 않으며, (2) 레이블이 없는 데이터의 양이 레이블이 있는 데이터보다 훨씬 더 많습니다. 하지만 문제는 표준적인 자연어 처리 (NLP) 접근 방식이 게놈 서열 (genomic sequences)에는 잘 작동하지 않는다는 점입니다.

결합 임베딩 아키텍처 (joint embedding architecture) 접근 방식 (대조 학습 (contrastive learning))을 사용하여, 우리는 모든 뉴클레오타이드 (nucleotide)를 예측하는 대신 기능적으로 유사한 서열을 인식하도록 모델을 학습시켰습니다. 이는 놀라울 정도로 잘 작동했습니다. 4개의 GPU로 14시간 동안 학습된 우리의 1,000만 (10M) 파라미터 모델인 Orthrus는, 1,000개의 GPU로 한 달 동안 학습된 400억 (40B) 파라미터 모델인 Evo2를 능가합니다 [0]. mRNA 반감기 (half-life) 예측에서, 우리의 임베딩에 선형 회귀 (linear regression)를 적용하는 것만으로도 우리는 지도 학습 모델 (supervised models)보다 뛰어난 성능을 보입니다. 학술 시절 수행한 이 연구는 우리가 구축하고 있는 것의 토대가 됩니다. 우리는 효과적인 mRNA 치료제 (mRNA therapeutics)를 설계하는 것을 목표로 학습 알고리즘을 개선하고, 사전 학습 데이터셋을 확장하며, 파라미터 스케일링 (parameter scaling)을 활용하고 있습니다.

왜 다른 SSL 접근 방식이 다음 토큰 예측 (next-token prediction)이나 마스크 언어 모델링 (masked language modeling)보다 더 효과적인지에 대해 할 말이 많습니다. 그중 일부는 Ian의 블로그 포스트 [1]와 우리의 논문 [2]에서 확인하실 수 있습니다. 핵심적인 결론은 생물학적 서열에 대해 NLP를 적용하여 모델을 확장하는 현재의 접근 방식만으로는 목표에 완전히 도달할 수 없다는 것입니다. 게놈의 90%는 적합도 (fitness)에 영향을 주지 않고도 돌연변이가 일어날 수 있으므로, 이러한 노이즈가 있는 서열을 예측하도록 모델을 학습시키는 것은 최적화되지 않은 임베딩 (suboptimal embeddings)을 초래합니다 [3].

우리는 디지털 혁명과 RNA 혁명 사이에 강력한 유사성이 있다고 생각합니다. 컴퓨팅의 초기 시절, 프로그래머들은 레지스터(registers)와 메모리 주소(memory addresses)를 직접 관리하며 어셈블리 코드(assembly code)를 작성했습니다. 오늘날의 RNA 설계자들은 시행착오를 통해 안정성을 개선하거나 면역원성 (immunogenicity)을 줄이기 위해 서열을 수동으로 미세 조정하고 있습니다. 컴파일러 (compilers)가 프로그래머를 저수준 (low-level)의 세부 사항으로부터 해방시켰듯이, 우리는 RNA를 위한 추상화 계층 (abstraction layer)을 구축하고 있습니다.

현재 우리는 몇몇 초기 단계 바이오테크 (biotechs) 기업들과 파일럿 프로젝트를 진행하며 우리 임베딩 (embeddings)의 유용성을 입증하고 있으며, 우리의 오픈 소스 (open source) 모델은 Sanofi 및 GSK의 관계자들에 의해 사용되고 있습니다. 우리는 다음을 찾고 있습니다: (1) RNA 인접 양식 (modalities)을 연구하는 파트너, (2) RNA 서열 설계를 시도해 본 분들로부터의 피드백(당신의 고충은 무엇이었나요?), 그리고 (3) 다른 응용 분야에 대한 아이디어! 우리는 몇몇 바이오마커 (biomarker) 제공 기업들과 대화를 나누었으며, 몇몇 예비 분석 결과는 개선된 층화 (stratification)를 보여주었습니다.

읽어주셔서 감사합니다. 기술적 접근 방식, 왜 유전체학 (genomics)이 언어와 다른지, 또는 그 외의 어떤 질문에도 기꺼이 답변해 드리겠습니다.