본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:53

Transformer의 일반화에 대한 더 명확한 관점

요약

본 연구는 불리언 도메인 상에서 Transformer의 일반화 동작을 푸리에 스펙트럼 관점에서 분석합니다. PAC-Bayes 이론을 활용하여 저차 성분에 집중된 희소 스펙트럼이 낮은 샤프니스(low-sharpness) 구조를 형성하고, 이것이 우수한 일반화 성능으로 이어진다는 것을 증명합니다.

핵심 포인트

  • 푸리에 스펙트럼 관점에서 Transformer의 일반화 경계를 PAC-Bayes 이론으로 도출
  • 저차 성분에 집중된 희소 스펙트럼이 낮은 샤프니스(low-sharpness) 구조를 가능하게 함을 확인
  • 컨텍스트 길이 내의 희소성을 가진 불리언 함수를 구현하는 평탄한 최소값(flat minima)의 존재 증명
  • 메커니즘적 해석 가능성(mechanistic interpretability) 연구를 통해 이론적 구조의 실효성 검증

우리는 타겟 함수(target functions)의 푸리에 스펙트럼 (Fourier Spectra) 관점에서 불리언 도메인 (boolean domains) 상의 Transformer 일반화 동작을 연구합니다. Rademacher 복잡도 (Rademacher complexity)로부터 일반화 경계 (generalization bounds)를 도출했던 이전 연구들 (Edelman et al., 2022; Trauger and Tewari, 2024)과 대조적으로, 우리는 PAC-Bayes 이론을 통해 일반화 경계를 얻는 것이 가능한지 조사합니다. 우리는 저차 성분 (low-degree components)에 집중된 희소 스펙트럼 (sparse spectra)이 좋은 일반화 특성을 가진 낮은 샤프니스 (low-sharpness) 구조를 가능하게 함을 보여줍니다. 우리의 아이디어는 컨텍스트 길이 (context length)보다 크지 않은 희소성을 가진 임의의 불리언 함수를 구현하는 평탄한 최소값 (flat minima)의 존재를 증명한 다음, 이상적인 저샤프니스 학습자 (low-sharpness learner)에 PAC-Bayes 경계를 적용하여 비공허한 (non-vacuous) 일반화 경계를 도출하는 것입니다. 우리는 예측을 경험적으로 평가하고, 실제 Transformer에서 우리의 이론적 구조가 얼마나 현실적인지를 뒷받침하기 위해 메커니즘적 해석 가능성 (mechanistic interpretability) 연구를 수행합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0