언어 모델링에서의 전역-지역 의존성 모델링을 위한 FiLM-조정 이중 분기 Transformer
요약
전역 의존성과 지역적 패턴을 동시에 효과적으로 모델링하기 위해 FiLM(Feature-wise Linear Modulation)을 활용한 이중 분기 Transformer 구조를 제안합니다. 두 분기 간의 동적인 채널별 조정을 통해 단일 분기 모델보다 우수한 성능과 파라미터 효율성을 입증했습니다.
핵심 포인트
- 전역 및 지역 의존성을 분리하여 처리하는 이중 분기 구조 제안
- FiLM을 통한 동적인 채널별 스케일링 및 시프팅 조정 방식 도입
- TinyShakespeare 및 WikiText-2 벤치마크에서 우수한 성능 달성
- 입력 및 레이어 의존적인 변조 패턴을 통한 기계론적 분석 확인
표준 Transformer는 단일 셀프 어텐션 (self-attention) 경로를 사용하여 전역 의존성 (global dependencies)과 지역적 패턴 (local patterns)을 모두 모델링하며, 이는 장거리 구조적 추론 (long-range structural reasoning)과 미세한 지역적 표현 학습 (fine-grained local representation learning) 사이의 긴장을 유발합니다. 우리는 언어 모델링을 위해 FiLM-조정 이중 분기 Transformer (FiLM-coordinated dual-branch Transformer)를 제안합니다. 여기서 각 레이어는 명시적으로 전역 분기 (global branch)와 지역 분기 (local branch)를 포함하며, 단순한 연결 (concatenation)이나 정적 덧셈 (static addition) 대신 동적인 분기 간 조정 (cross-branch coordination)을 위해 특징별 선형 변조 (feature-wise linear modulation, FiLM)를 사용합니다. 핵심 아이디어는 두 분기가 동일한 입력에 대한 서로 다른 의존성 관점을 나타내므로, 무거운 토큰 수준의 상호작용 (token-level interaction)보다 채널별 보정 (channel-wise calibration)이 더 적합하다는 것입니다. 따라서 우리는 각 분기가 다른 분기를 조건화하기 위해 채널별 스케일링 (scaling) 및 시프팅 (shifting) 파라미터를 생성하는 양방향 FiLM 모듈을 설계합니다. 여러 소규모 언어 모델링 설정에서의 실험 결과, 제안된 구조는 고정된 경량 구성 하에서 동일한 너비의 단일 분기 베이스라인 (single-branch baselines) 및 약화된 이중 분기 변형 모델 (weakened dual-branch variants)보다 일관되게 우수한 성능을 보입니다. TinyShakespeare 및 WikiText-2의 1M-문자 서브셋에서, 전체 이중 분기 FiLM 모델은 동일한 너비의 구조적 베이스라인 중 가장 좋은 결과를 달성했습니다. 다중 시드 (Multi-seed) 결과는 이 이득의 안정성을 뒷받침하며, 기계론적 분석 (mechanistic analyses)은 FiLM이 정적 스케일링이 아닌 입력 의존적 (input-dependent), 레이어 의존적 (layer-dependent), 그리고 채널 선택적 (channel-selective) 변조 패턴을 학습함을 보여줍니다. 파라미터가 일치하도록 확장된 단일 분기 베이스라인 또한 현재의 설계가 파라미터 효율성 측면에서 여전히 개선의 여지가 있음을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기