본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 15:38

Sparse Mixture-of-Experts Routing을 통한 다중 물리 파운데이션 모델(Multi-Physics Foundation

요약

본 논문은 과학적 머신러닝(SciML)을 파운데이션 모델로 확장할 때 발생하는 '부정적 전이' 문제를 해결하기 위해 Shodh-MoE라는 새로운 아키텍처를 제안합니다. Shodh-MoE는 다중 물리 수송 현상을 위한 희소 활성화 잠재 트랜스포머이며, 물리 정보 기반 오토인코더와 Top-1 소프트-시맨틱 라우터를 결합하여 작동합니다. 이 모델은 개수로 유체 역학과 다공성 매질 흐름 같은 서로 다른 물리 체계를 동시에 학습하면서도 각 메커니즘의 특성을 유지하고 높은 정확도를 달성함을 입증했습니다.

핵심 포인트

  • Shodh-MoE는 다중 물리 수송을 위한 희소 활성화 잠재 트랜스포머 아키텍처입니다.
  • Top-1 소프트-시맨틱 라우터가 서로 다른 물리적 메커니즘에 특화된 전문가 서브 네트워크를 동적으로 할당하여 '부정적 전이' 문제를 완화합니다.
  • 모델은 개수로 유체 역학 및 다공성 매질 흐름과 같은 상이한 두 물리 체계를 동시에 학습하며 질량 보존을 만족하는 높은 정확도를 달성했습니다.
  • 희소 전문가 라우팅 메커니즘이 범용 신경 연산자에서 다중 물리 간섭을 완화하는 효과적인 아키텍처임을 보여줍니다.

과학적 머신러닝 (Scientific Machine Learning, SciML)을 범용 파운데이션 모델 (Foundation Models)로 확장하는 과정은 부정적 전이 (Negative Transfer)에 의해 병목 현상이 발생합니다. 즉, 서로 다른 편미분 방정식 (Partial Differential Equation, PDE) 체계들을 동시에 공동 학습 (Co-training)하면, 밀집형 신경 연산자 (Dense Neural Operators)에서 그래디언트 충돌 (Gradient Conflict), 불안정한 최적화 (Unstable Optimization), 그리고 가소성 상실 (Plasticity Loss)을 유발할 수 있습니다. 특히, 광대역 개수로 유체 역학 (Open-channel fluid dynamics)과 경계 지배적 다공성 매질 흐름 (Boundary-dominated porous media flows)은 단일 밀집 파라미터 경로에 서로 호환되지 않는 스펙트럼 및 기하학적 요구 사항을 부과합니다.

우리는 다중 물리 수송 (Multi-physics transport)을 위한 희소 활성화 잠재 트랜스포머 (Sparse-activated latent transformer) 아키텍처인 Shodh-MoE를 소개합니다. Shodh-MoE는 인트라-토크나이저 (Intra-tokenizer) 헬름홀츠 스타일 속도 매개변수화 (Helmholtz-style velocity parameterization)를 갖춘 물리 정보 기반 오토인코더 (Physics-informed autoencoder)에 의해 생성된 압축된 $16^3$ 물리 잠재 변수 (Physical latents) 상에서 작동하며, 디코딩된 상태를 발산 없는 속도 매니폴드 (Divergence-free velocity manifolds)로 제한합니다. 이 모델은 정확한 질량 보존 (Mass conservation)을 보장하며, $128^3$ 그리드에서 물리적으로 검증 가능한 약 $2.8 imes 10^{-10}$의 속도 발산 (Velocity divergence)을 달성합니다 (FP64에서 사후 평가됨).

Top-1 소프트-시맨틱 라우터 (Soft-semantic router)는 국소화된 잠재 패치 (Latent patches)를 전문가 서브 네트워크 (Expert subnetworks)에 동적으로 할당하여, 보편적 대칭성 (Universal symmetries)을 위한 공유 전문가 (Shared experts)를 보존하는 동시에 서로 다른 물리적 메커니즘을 위한 특화된 파라미터 경로를 가능하게 합니다. 혼합된 3차원 물리 텐서 (Three-dimensional physical tensors)에 대해 20,000단계의 분산 사전 학습 (Distributed pretraining)을 실행한 결과, 라우팅 텔레메트리 (Routing telemetry)는 자율적인 도메인 분기 (Domain bifurcation)를 보여주었습니다. 개수로 도메인의 홀드아웃 검증 토큰 (Held-out validation tokens)은 Expert 0로만 라우팅되는 반면, 다공성 매질 토큰은 Expert 1로만 라우팅됩니다. 모델은 두 체계 모두에서 동시에 수렴하며, 잠재 검증 MSE (Latent validation MSE) $2.46 imes 10^{-5}$ 및 $9.76 imes 10^{-6}$, 그리고 디코딩된 물리 MSE (Decoded physical MSE) $2.48 imes 10^{-6}$ 및 $1.76 imes 10^{-6}$을 달성했습니다. 이러한 결과는 희소 전문가 라우팅 (Sparse expert routing)이 범용 신경 연산자 (Universal neural operators)에서 다중 물리 간섭을 완화하기 위한 실질적인 아키텍처 메커니즘임을 뒷받침합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0