arXiv논문2026. 05. 21. 10:53

Transformer의 일반화에 대한 더 명확한 관점

요약

본 연구는 불리언 도메인 상에서 Transformer의 일반화 동작을 푸리에 스펙트럼 관점에서 분석합니다. PAC-Bayes 이론을 활용하여 저차 성분에 집중된 희소 스펙트럼이 낮은 샤프니스(low-sharpness) 구조를 형성하고, 이것이 우수한 일반화 성능으로 이어진다는 것을 증명합니다.

핵심 포인트

푸리에 스펙트럼 관점에서 Transformer의 일반화 경계를 PAC-Bayes 이론으로 도출
저차 성분에 집중된 희소 스펙트럼이 낮은 샤프니스(low-sharpness) 구조를 가능하게 함을 확인
컨텍스트 길이 내의 희소성을 가진 불리언 함수를 구현하는 평탄한 최소값(flat minima)의 존재 증명
메커니즘적 해석 가능성(mechanistic interpretability) 연구를 통해 이론적 구조의 실효성 검증

우리는 타겟 함수(target functions)의 푸리에 스펙트럼 (Fourier Spectra) 관점에서 불리언 도메인 (boolean domains) 상의 Transformer 일반화 동작을 연구합니다. Rademacher 복잡도 (Rademacher complexity)로부터 일반화 경계 (generalization bounds)를 도출했던 이전 연구들 (Edelman et al., 2022; Trauger and Tewari, 2024)과 대조적으로, 우리는 PAC-Bayes 이론을 통해 일반화 경계를 얻는 것이 가능한지 조사합니다. 우리는 저차 성분 (low-degree components)에 집중된 희소 스펙트럼 (sparse spectra)이 좋은 일반화 특성을 가진 낮은 샤프니스 (low-sharpness) 구조를 가능하게 함을 보여줍니다. 우리의 아이디어는 컨텍스트 길이 (context length)보다 크지 않은 희소성을 가진 임의의 불리언 함수를 구현하는 평탄한 최소값 (flat minima)의 존재를 증명한 다음, 이상적인 저샤프니스 학습자 (low-sharpness learner)에 PAC-Bayes 경계를 적용하여 비공허한 (non-vacuous) 일반화 경계를 도출하는 것입니다. 우리는 예측을 경험적으로 평가하고, 실제 Transformer에서 우리의 이론적 구조가 얼마나 현실적인지를 뒷받침하기 위해 메커니즘적 해석 가능성 (mechanistic interpretability) 연구를 수행합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Transformer의 일반화에 대한 더 명확한 관점

요약

핵심 포인트

댓글