더 큰 도메인에 대한 트랜스포머 신경 연산자(Transformer neural operators)의 제로샷 일반화 (Zero-shot
요약
트랜스포머 기반 신경 연산자가 훈련된 도메인보다 더 큰 공간 도메인에서도 제로샷 일반화가 가능하도록 하는 연구를 소개합니다. 분해 가능한 편향과 회전 위치 임베딩을 통해 공간적 국소성과 이동 등변성을 구현하여 PDE 해 연산 성능을 높였습니다.
핵심 포인트
- 훈련 도메인보다 큰 공간에서의 제로샷 추론 성능 향상
- 분해 가능한 편향을 통한 공간적 국소성 구현
- 회전 위치 임베딩을 활용한 표현력 있는 임베딩 제공
- PDE 벤치마크 및 3D 산업용 대기 흐름 응용 분야 검증
트랜스포머 기반 신경 연산자 (Transformer-based neural operators)는 복잡한 기하학적 구조에서 편미분 방정식 (PDE)의 해 연산자 (solution operators)를 근사하는 데 있어 놀라운 성능을 보여주었습니다. 그러나 기존 방식들은 암묵적으로 고정된 도메인 크기를 가정하며, 이는 추론 시 일반화 능력을 제한합니다. 본 연구에서는 도메인 확장, 즉 훈련 과정에서 접했던 것보다 훨씬 더 큰 공간 도메인에서의 제로샷 추론 (zero-shot inference)을 조사합니다. 우리는 이러한 설정이 근본적으로 공간적 국소성 (spatial locality)과 이동 등변성 (translation equivariance)을 요구한다고 주장합니다. 우리는 어텐션 로짓 (attention logits) 계산 시 분해 가능한 편향 (decomposable bias)을 통해 이러한 국소성을 구현할 것을 제안하며, 이는 쿼리-키 내적 (query-key inner products)으로 완전히 분해 가능하고 최적화된 어텐션 커널 (attention kernels)과 직접 호환되면서도 미세하게 제어 가능한 국소성을 가능하게 합니다. 회전 위치 임베딩 (rotary positional embeddings)과 결합하여, 이는 트랜스포머 아키텍처를 변경하지 않고도 제어 가능한 공간적 서포트 (spatial support)를 가진 표현력 있는 임베딩을 가능하게 합니다. 우리는 우리의 접근 방식이 두 가지 PDE 벤치마크와 3D 산업용 대기 흐름 응용 분야 전반에서 더 큰 도메인에 대한 제로샷 일반화 성능을 실질적으로 향상시킨다는 것을 경험적으로 보여줍니다. 우리의 코드와 데이터셋은 https://github.com/cerea-daml/domain-extension 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기