mRNA 모델 개발: 25종에 걸친 단백질 AI 파이프라인 구축
요약
OpenMed는 치료용 단백질 개념을 발현 가능한 DNA 서열로 변환하는 엔드투엔드(end-to-end) AI 파이프라인을 구축했습니다. 이 파이프라인은 ①단백질 구조 예측, ②아미노산 서열 설계, ③코돈 최적화의 세 단계로 구성됩니다. 특히 코돈 최적화 부분에 집중하여 여러 트랜스포머(transformer) 아키텍처를 비교한 결과, CodonRoBERTa-large-v2가 가장 우수한 성능을 보였습니다. 이를 25종의 생물종으로 확장하고 총 4개의 모델을 개발하는 데 성공했으며, 이는 오픈 소스 프로젝트 중 독보적인 성과입니다.
핵심 포인트
- 단백질 AI 파이프라인은 구조 예측(ESMFold), 서열 설계(ProteinMPNN), 코돈 최적화의 3단계로 구성됩니다.
- 코돈 최적화 모델로는 CodonRoBERTa-large-v2가 가장 우수하며, 이는 낮은 perplexity와 높은 CAI 상관관계를 보였습니다.
- 개발된 시스템은 단일 종을 넘어 25개 생물종에 걸쳐 작동하는 다중 종(multi-species) 지원 기능을 갖추고 있습니다.
- 이 파이프라인은 개념 단계의 단백질 아이디어를 실제 발현 가능한 DNA 서열로 변환할 수 있게 합니다.
OpenMed는 치료용 단백질을 합성 준비가 된, 코돈 최적화된 DNA 서열로 만드는 완전한 AI 파이프라인을 개발했습니다. 이 시스템은 크게 세 가지 핵심 단계로 작동합니다: ①단백질의 3차원 구조 예측, ②해당 구조를 만들 아미노산 서열 설계, ③최종적으로 목표 생명체에서 효율적으로 발현되도록 DNA 코돈 최적화입니다.
가장 많은 노력이 투입된 부분은 '코돈 최적화'였습니다. 이들은 여러 트랜스포머(transformer) 아키텍처를 비교하며 어떤 모델이 코돈 레벨의 언어 모델링에 가장 적합한지 탐구했습니다. 그 결과, CodonRoBERTa-large-v2가 낮은 perplexity와 높은 Spearman CAI 상관관계를 기록하며 기존 모델들을 크게 능가하는 성능을 입증했습니다.
더 나아가 이 시스템은 25개 생물종(species)에 걸쳐 확장되었으며, 총 4개의 생산 모델을 개발하는 데 성공했습니다. 이는 오픈 소스 프로젝트 중 독보적인 다중 종 지원 기능을 제공합니다. OpenMed는 이 파이프라인의 모든 과정과 결과를 투명하게 공개하며, 사용자들이 개념 단계부터 실제 실험까지 이어지는 단백질 엔지니어링 워크플로우를 구축할 수 있도록 했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기