arXiv논문2026. 06. 30. 10:44

분포 회귀 (Distribution Regression)에서의 Transformer 일반화 분석

요약

Transformer 아키텍처의 수학적 메커니즘을 분석하기 위해 분포 회귀(Distribution Regression) 기반의 새로운 학습 프레임워크를 제안합니다. 어텐션 연산자를 통해 Transformer가 정보를 손실 없이 압축하는 과정을 입증하고, 일반화 경계를 도출합니다.

핵심 포인트

분포 회귀 프레임워크를 통한 Transformer 학습 메커니즘 정식화
어텐션 연산자의 수학적 정의 및 정보 압축 능력 입증
CNN 및 FCN 대비 복잡한 범함수 학습 능력 우위 확인
PEFT, 프롬프트 튜닝, 효율적 스케일링에 대한 이론적 통찰 제공

최근 몇 년 동안 Transformer 아키텍처에 기반한 모델들은 광범위한 응용 사례를 보여주었으며, 딥러닝 (deep learning) 분야의 핵심 도구 중 하나가 되었습니다. 성능을 더욱 향상시키기 위해 매개변수 효율적 미세 조정 (parameter-efficient fine-tuning) 및 효율적인 스케일링 (efficient scaling)과 같은 수많은 성공적인 기술들이 그 응용을 중심으로 제안되었습니다. 그러나 이러한 전략들의 성공은 항상 엄격한 수학적 이론의 뒷받침이 부족했습니다. Transformer 및 관련 기술들의 근저에 있는 메커니즘을 연구하기 위해, 우리는 먼저 분포 (distributions)를 입력으로 하는 분포 회귀 (distribution regression)에서 영감을 얻은 Transformer 학습 프레임워크를 제안하고, 2단계 샘플링 프로세스를 자연어 처리 (natural language processing)와 연결하며, 어텐션 연산자 (attention operator)라고 불리는 어텐션 메커니즘 (attention mechanism)의 수학적 정식화를 제시합니다. 우리는 어텐션 연산자를 통해 Transformer가 정보 손실 없이 분포를 함수 표현 (function representations)으로 압축할 수 있음을 입증합니다. 또한, 우리의 새로운 어텐션 연산자의 장점 덕분에 Transformer는 합성곱 신경망 (convolutional neural networks) 및 완전 연결 신경망 (fully connected networks)보다 더 복잡한 구조를 가진 범함수 (functionals)를 학습하는 더 강력한 능력을 보여줍니다. 마지막으로, 우리는 분포 회귀 프레임워크 내에서 일반화 경계 (generalization bound)를 얻습니다. 앞서 언급한 이론적 결과들을 통해, 우리는 프롬프트 튜닝 (prompt tuning), 매개변수 효율적 미세 조정 (parameter-efficient fine-tuning), 효율적인 스케일링 (efficient scaling)과 같이 대규모 언어 모델 (LLMs)과 함께 등장한 몇 가지 성공적인 기술들에 대해 추가로 논의합니다. 우리는 또한 우리의 새로운 분석 프레임워크 내에서 이러한 기술들의 이면에 있는 이론적 통찰을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

분포 회귀 (Distribution Regression)에서의 Transformer 일반화 분석

요약

핵심 포인트

댓글