본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 06. 01. 03:32

Stanford RNA 3D Folding Part 2: 상위 3개 해법으로 분석하는 RNA 입체 구조 예측의 현주소

요약

Kaggle의 RNA 3D 구조 예측 컴피티션 상위 3개 팀의 해법을 분석합니다. 서열 길이에 따른 모델 할당 전략, 앙상블 다양성 확보, TBM 및 Protenix 활용법 등 RNA 구조 예측의 최신 기술 트렌드를 다룹니다.

핵심 포인트

  • best-of-5 채점 규칙에 맞춘 모델 다양성 극대화 전략
  • 서열 길이에 따른 동적 모델 할당 및 메모리 최적화
  • TBM(Template-Based Modeling)의 정교한 후처리 기법
  • 장쇄 서열 처리를 위한 슬라이딩 윈도우 및 청크 단위 추론

2026년 4월, Kaggle의 RNA 입체 구조 예측 컴피티션 「Stanford RNA 3D Folding Part 2」의 상위 해법이 공개되었다. 본 기사에서는 1위~3위의 해법을 정리하고, 이를 통해 보이는 공통 전략과 각 팀의 독자성을 고찰한다.

서론: 이 컴피티션은 무엇을 겨루고 있었는가

RNA의 염기 서열로부터 그 3차원 입체 구조를 예측하는 태스크이다. RNA의 기능은 입체 구조에 강하게 의존하기 때문에, 서열로부터 구조를 맞히는 문제는 생물학에서의 중요한 과제 중 하나로 꼽힌다.

Part 2에서는 Part 1보다 난이도가 더욱 높아져, **단백질(Protein)・DNA・리간드(Ligand)・다중 체인(Multiple chains)・장쇄 서열(Long-length sequences)**과 같은 복잡한 타겟이 추가되었다.

평가는 「1개 타겟당 5개의 예측을 제출하고, 그중 최상의 1개로 채점되는 (best-of-5)」 방식이다. 이 채점 규칙이 후술할 내용과 같이 상위 해법의 전략을 크게 결정짓고 있다.

상위 3개 해법의 전체상

먼저 3개 팀의 구성을 하나의 표로 조망한다.

순위핵심 전략주요 모델 구성Private LB
1위team_cp (2명)5개 모델의 다양성 × 서열 길이 적응TBM / Boltz2 / RNAPro / DRFold2 / Protenix0.49669
2위솔로NN 아키텍처 개조 (BPP 주입)TBM / RNAPro / BPP-Protenix0.49211
3위솔로기존 해법의 견실한 확장 × 속도 최적화TBM(LightGBM) / Protenix / RNAPro0.48488

스코어의 절대값은 근소한 차이이며, 접근 방식의 「사상」이 삼자삼양(三者三様)이었다는 점이 이 컴피티션의 재미있는 점이다.

1위: 5개 모델 앙상블 × 서열 길이 적응형 할당

핵심: best-of-5를 「다양성의 최대화」로 재해석

team_cp (@naganohikaru, @yutaroito)는 best-of-5 채점을 「5개의 예측을 어떻게 구조적으로 다양화할 것인가」라는 문제로 파악했다. 5개의 독립된 모델을 준비하고, 서열 길이에 따라 어떤 모델에 몇 개의 슬롯을 할당할지를 동적으로 변경한다.

서열 길이별 할당

1位解法による、配列長ごとの5つの予測枠へのモデル割り当てを示したマトリクス図

그림 1: 1위 해법의 서열 길이 × 모델 할당

그림과 같이, 단쇄 서열에서는 템플릿 비의존형 모델 (Boltz2・DRFold2・Protenix)로 미지의 타겟에 대한 일반화(Generalization)를 노리고, 장쇄 서열에서는 메모리 제약 (OOM)으로 인해 Boltz2・RNAPro를 사용할 수 없는 만큼, 저비용으로 장쇄에 강한 TBM을 3개 슬롯으로 두텁게 배분하고 있다.

기술적인 고안

TBM은 훈련 데이터로부터 상위 30개 템플릿을 검색하고, 갭(Gap)을 선형 보간으로 채우며, 결합 길이·각도 보정 및 라플라시안 평활화(Laplacian smoothing)로 후처리를 수행한다. 보정의 강도를 템플릿 유사도에 반비례시켜, 「유사한 템플릿은 거의 건드리지 않고, 유사하지 않은 것은 강하게 보정한다」는 설계가 돋보인다.

Protenix는 1000nt를 초과하는 초장쇄 서열을 512nt의 슬라이딩 윈도우 (오버랩 128nt)로 분할 추론하여 C1' 좌표를 조립한다. GPU OOM 대책으로서 청크(Chunk) 단위로 메모리를 클리어하는 철저함을 보여준다.

사상: 「TBM 의존」보다는 「다양성」

team_cp는 「TBM은 그것이 명확하게 강한 상황 (장쇄 + 가까운 템플릿이 존재하는 경우)에서만 골격으로 사용하고, 나머지는 다양한 모델로 채운다」는 방침을 취했다. 이것이 Private LB (가까운 템플릿이 존재하지 않는 난이도 높은 타겟을 포함)에서의 좋은 성적으로 이어졌다고 자가 분석하고 있다.

2위: BPP-Protenix — 뉴럴 네트워크 자체를 개조하다

유일하게 「아키텍처를 새로 작성한」 해법

2위 솔로 참가자는 상위권 중 유일하게 뉴럴 네트워크의 아키텍처 자체를 손보았다. **염기쌍 확률 (BPP: Base Pair Probability)을 AlphaFold3 스타일의 Protenix에 주입하는 「BPP-Protenix」**를 독자 개발하였으며, 종반 2주간 Public LB에서 1위를 유지했다.

착안: 2023년 Ribonanza 컴피티션으로부터의 전용

발상의 근원은 2023년 Ribonanza 컴피티션이다. 그곳에서는 BPP 행렬이 RNA 안정성 예측의 중요한 특징량(Feature)이었다. RNA의 안정성은 입체 구조에 의존하는 만큼, 「BPP는 3D 구조에서의 잔기 근접 정보 (공간적 제약)를 제공할 것이다」라는 추론이다.

구현: z 표현으로의 가산

AlphaFold3/Protenix의 Pairformer

여기에 있는 페어 표현 (pair representation) z [N, N, c]는 BPP 행렬 [N, N]과 동일한 「잔기 페어 행렬 (residue pair matrix)」 구조를 가진다. 이에 착안하여, BPP를 선형층 (linear layer)으로 변환해 z_init에 가산하기만 하면 된다는 심플한 구현 방식에 도달했다.

BPP行列を線形層で変換しPairformerのペア表現zに加算する、2位解法のデータフロー図

그図2: BPP를 페어 표현에 주입하는 데이터 흐름 (2위 해법)

주입 방식 A (단순 선형층) · B (비닝 추가) · C (BppEmbedder 추가)를 비교한 결과, 가장 심플한 방식 A가 최상 (standalone의 Public LB 스코어는 0.340, 반면 plain Protenix는 0.309). 복잡하게 만든다고 해서 반드시 좋은 것은 아니라는 전형적인 교훈이다.

BPP 계산 도구 검증

ViennaRNA와 EternaFold를 「고(高) BPP 잔기 페어가 실제로 3D 공간에서 가까운가」를 기준으로 비교하여 EternaFold를 채택했다.

ViennaRNAEternaFold
접촉률 (BPP≥0.7)81.4%
접촉률 (BPP≥0.9)86.6%

의사결합 (pseudoknot)에 대한 의외의 결과

EternaFold는 의사결합 (pseudoknot)을 예측할 수 없기 때문에 불리할 것이 우려되었으나, 검증 결과 pseudoknot를 포함하는 타겟에서도 BPP-Protenix가 plain Protenix를 평균 TM-score 기준 +0.06 상회했다. BPP는 「완전한 이차 구조 예측」이 아니라 「염기쌍 경향성에 대한 힌트」로서 작동하며, 48개 블록의 Pairformer가 부정확함을 흡수할 수 있다는 해석이다. pseudoknot 전용 대책은 불필요하다고 판단한 점도 과감하다.

스코어

구성Public LBPrivate LB
TBM×1 / RNAPro×2 / Protenix×20.4610.475
TBM×1 / RNAPro×2 / BPP-Protenix×20.504 (1위)0.492 (2위)

BPP 도입으로 plain Protenix보다 +0.04의 성능 향상을 이뤄냈다. Public LB에서는 1위, Private에서는 아쉽게 2위를 기록했다.

3위: 기존의 강력한 해법을 「복잡성」과 「속도」 양면에서 확장하기

핵심: Part 2의 신규 요소를 솔직하게 모델에 반영

3위 솔로 참가자는 공개된 강력한 해법들 (TBM · RNAPro · Protenix)을 베이스로 하여, Part 2에서 추가된 신규 요소 (단백질 · DNA · 리간드 · 다중 체인 · 긴 서열)를 모델링에 포함시키는 전략을 취했다. 서열별로 특별한 예측 선택 로직을 두지 않고, 모든 타겟에 일률적으로 TBM×2 + Protenix×2 + RNAPro×1을 제출하는 심플함이 특징이다.

돋보이는 기교: LightGBM을 이용한 템플릿 선택

가장 독특한 점은 **「쿼리-템플릿 페어로부터 TM-score를 예측하는 LightGBM 모델」**을 만들어 템플릿을 선택했다는 점이다. 약 198K개의 페어 학습 데이터에 대해 다음과 같은 다채로운 특징량 (features)을 투입했다.

  • RNA 서열 유사도 (정렬 스코어, 동일성, 길이 차이 비율)
  • 설명문 임베딩 유사도 (PubMedBERT로 쿼리/템플릿의 기술 내용을 embedding화하여 코사인 유사도 산출)
  • 단백질 유사도 (BLOSUM62를 이용한 정렬)
  • DNA · 리간드 유사도 (리간드는 Morgan fingerprint의 Tanimoto 유사도)
  • 구성 카운트 특징 · 체인 관련 특징

단순한 서열 정렬뿐만 아니라, 메타데이터 (설명문)나 파트너 분자의 정보까지 사용하여 템플릿의 우수성을 학습시킨다는 발상은 Part 2의 「복잡한 타겟」이라는 성격에 교묘하게 적응한 결과다.

속도에 대한 철저한 집착

T4 GPU 2장이라는 제약 조건 하에서 다양한 예측을 담아내기 위해 곳곳에 가속화를 적용했다.

  • RNAPro와 Protenix의 추론을 2장의 T4에서 병렬 실행
  • 확산 단계 (diffusion steps)를 100으로 축소, MSA 깊이를 2048로 제한, 고속 커널 (fast_layernorm, triattention) 채택
  • 긴 서열 (448nt 초과)은 체인 분할 → 청크 분할 (오버랩 96nt) → Kabsch alignment로 결합
  • 최종 체인에는 첫 번째 체인으로부터 순환적으로 오버랩을 부여하여 구조의 **환형성 (cyclicity)**을 포착하려는 시도

「더 빠르고 대용량인 GPU가 있다면, 각 해법은 어디까지 확장될 수 있을까」라는 맺음말은, 이번 대회가 제약 조건 하에서의 싸움이었음을 말해준다.

고찰: 3가지 해법을 통해 보이는 것

1. 모두가 의존한 공통 기반 — TBM · RNAPro · Protenix

3개 팀 모두 토대로 TBM (Template-Based Modeling), RNAPro (NVIDIA의 Part 1 우승 모델), Protenix (ByteDance의 AlphaFold3 계열)를 두고 있다. 이들은 공개 노트북(Notebook) 형태로 조기에 공유되었으며, 「강력한 공개 해법을 얼마나 현명하게 조합하고 확장하는가」가 승부의 장이 되었다. Kaggle다운 지식 공유 생태계가 그대로 순위에 반영된 형국이다.

2. 승리 공식의 세 가지 유형

上位3チームの改善レバー(アンサンブル設計・モデル改造・特徴量設計)の違いを比較した図

그림 3: 상위 3개 팀의 개선 레버(Lever) 차이

흥미로운 점은 거의 동일한 부품으로부터 세 팀이 각기 다른 승리 공식을 만들어냈다는 점이다.

1위 = 할당 최적화형 (Allocation Optimization): 기존 모델을 사용하되, 「어떤 길이에 어떤 모델을 몇 개 배치할지」에 대한 배분을 치밀하게 튜닝.

2위 = 아키텍처 개조형 (Architecture Modification): 모델의 내부 (z-representation)에 새로운 귀납적 편향 (Inductive Bias, BPP)을 주입하는 유일한 「연구 지향적」 접근.

3위 = 특성 공학형 (Feature Engineering): 템플릿 선택에 LightGBM과 풍부한 특성량 (Feature)을 도입하여 전처리 정밀도로 승부.

머신러닝 경진대회의 전형적인 세 가지 개선 레버(앙상블 설계 · 모델 개조 · 특성 설계)가 각각의 순위에 깔끔하게 대응하고 있다는 점은 시사하는 바가 크다.

3. best-of-5 채점이 「다양성」을 최우선 KPI로 만들었다

5개의 예측 중 최상의 결과로 채점되는 규칙은, 「평균적으로 좋은 예측」보다 「실패할 확률이 낮은 다양한 예측군」을 유리하게 만든다. 1위가 명시적으로 다양성을 최대화하고, 2위와 3위도 여러 서로 다른 모델 (TBM + NN 계열)을 혼합한 것은 이 채점 규칙에 대한 합리적인 적응이다. 평가 지표에 대한 이해 그 자체가 전략의 출발점이 되고 있다.

4. 템플릿 의존성과 일반화의 트레이드오프 (Trade-off)

TBM은 「가까운 훈련 데이터가 있다면 매우 강력」하지만, 미지의 구조에는 약하다. 1위는 이를 「긴 서열 + 가까운 템플릿이 있는 상황」으로 한정하여 사용함으로써, 난이도가 높은 타겟이 많은 Private LB (Leaderboard)에서 버텨낼 수 있었다. 반면, 2위는 BPP라는 물리적 사전 정보를 주입함으로써 템플릿에 의존하지 않고 NN 단독으로 TBM급의 정밀도 (standalone Public LB에서 0.34 ≈ TBM 공개 노트북의 0.35)를 달성했다. 「과거 데이터에 대한 의존」을 어떻게 줄이는가가 Private LB에서의 성패를 가르는 열쇠였다고 생각된다.

5. 「제약 조건과의 싸움」이라는 숨은 테마

3가지 해법 모두에서 OOM (Out of Memory) 회피 · 분할 추론 · 커널 가속화 · 모델 수 축소와 같은 GPU 메모리 및 실행 시간 제약에 대한 대처가 빈번하게 등장한다. RNA 입체 구조 예측은 계산 자원을 대량으로 요구하기 때문에, 「알고리즘의 우수성」만큼이나 「제약 내에 수용하는 공학적 역량」이 요구되었다. 3위의 맺음말이 보여주듯, 자원이 풍부하다면 스코어의 천장은 아직 더 높이 있다.

요약

관점1위2위3위
개선 레버앙상블 설계모델 개조특성 설계
...

Stanford RNA 3D Folding Part 2는 「공개된 강력한 베이스라인을 각자의 철학으로 어떻게 뛰어넘을 것인가」에 대한 경쟁이었다. 할당, 아키텍처, 특성 — 어떤 레버를 당기더라도 상위권에 도달할 수 있음을 보여주었다는 점에서, RNA 입체 구조 예측이라는 난제에 대한 방법론의 다양성 그 자체가 이 분야의 건전함을 말해주는 것 같다.

각 해법의 상세 내용은 Kaggle의 Writeup을 참조하기 바란다. 구현의 세부 사항에 승패를 가른 지혜가 담겨 있다.

참고 문헌

참고 문헌

논의 (Discussion)

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn ML의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0