arXiv논문2026. 05. 26. 12:53

작은 모델, 강력한 사전 정보: 매개변수 효율적인 신경 PDE 솔버를 위한 구조적 귀납적 편향 (Architectural Inductive

요약

신경 PDE 솔버에서 모델 규모보다 구조적 귀납적 편향이 중요함을 입증하는 WaveLiT를 제안합니다. WaveLiT는 이산 웨이브렛 변환과 선형 어텐션을 결합하여 1~10M의 작은 매개변수로도 거대 파운데이션 모델과 대등한 성능을 보여줍니다.

핵심 포인트

구조적 사전 정보가 매개변수 효율성을 극대화함
WaveLiT는 웨이브렛 기반 다중 해상도 토큰화 활용
10M 매개변수로 100~1000배 큰 모델과 경쟁 가능
물리적 동역학 구조와 일치하는 사전 정보의 중요성 확인

신경 PDE 솔버 (Neural PDE solvers)는 비전 및 언어 모델의 스케일링 (scaling) 궤적을 따라왔으며, 최근의 파운데이션 모델 (foundation models)은 수십억 개의 매개변수 (parameters)에 도달했습니다. 우리는 이 분야에서 규모 (scale)가 구조적 귀납적 편향 (architectural inductive bias)을 대체하기에는 부족하다고 주장합니다. 구조화된 사전 정보 (structured priors)는 압도적인 매개변수 효율성 (parameter efficiency)을 제공하며, 이들이 성공하고 실패하는 패턴 그 자체로 무엇을 포착하는지에 대한 유익한 정보를 제공합니다. 우리는 이러한 주장을 WaveLiT를 통해 구체화합니다. WaveLiT는 손실 없는 다중 해상도 토큰화 (multi-resolution tokenization)를 위한 이산 웨이브렛 변환 (discrete wavelet transform), 확장된 선형 어텐션 (linear attention) 블록, 가중치 공유 다중 스케일 특징 피라미드 (shared-weight multiscale feature pyramid), 그리고 웨이브렛 도메인 보조 손실 (wavelet-domain auxiliary loss)을 결합한 구조입니다. 맞춤 제작된 1~~10M 매개변수의 WaveLiT 모델은 8개의 TheWell 벤치마크에서 자신보다 100~~1000배 더 큰 규모의 파운데이션 모델들과 경쟁하며, 특히 웨이브 (wave) 및 음향 (acoustic) 중심의 벤치마크에서 가장 큰 성능 향상을 보였습니다. 이는 웨이브렛-다중 스케일 사전 정보 (wavelet-multiscale prior)가 지배적인 동역학 구조 (dynamical structure)에 부합하며, 롤아웃 (rollout) 시 단계별 작은 오차들이 기하급수적으로 누적되지 않기 때문입니다. 8개 벤치마크 전체에서 공동 학습된 10M 매개변수의 파운데이션 변형 모델은 구조화되고 물리적으로 해석 가능한 전이 패턴 (transfer pattern)을 보여줍니다. 즉, 웨이브렛-다중 스케일 사전 정보가 동역학 (dynamics)과 일치하는 곳에서 가장 강력하며, 카오스적 이류 (chaotic advection)가 지배적인 흐름에서 가장 약하게 나타납니다. 전체 파이프라인은 단일 GPU에서 학습됩니다. 결과는 작은 모델의 PDE 성능이 규모보다는 구조적 귀납적 편향 (architectural inductive bias)에 의해 결정되며, 사전 정보의 실패 구조가 그 내용에 대한 유용한 경험적 신호가 된다는 점을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

작은 모델, 강력한 사전 정보: 매개변수 효율적인 신경 PDE 솔버를 위한 구조적 귀납적 편향 (Architectural Inductive

요약

핵심 포인트

댓글