본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 13:08

Transformer의 타이트한 샘플 복잡도 (Tight Sample Complexity)

요약

Transformer 모델의 VC 차원과 샘플 복잡도에 대한 수학적 상한 및 하한을 규정하는 연구입니다. 특히 사고의 사슬(CoT) 학습 시 티처 포싱 방식의 샘플 복잡도를 분석하여 이론적 한계를 증명합니다.

핵심 포인트

  • Transformer의 VC 차원 상한 $O(LW \log(TW))$ 확립
  • CoT 학습 시 티처 포싱의 샘플 복잡도 분석
  • CoT 데이터 학습을 위한 최소 샘플 수의 이론적 하한 증명

우리는 총 $W$개의 파라미터를 가진 깊이 $L$의 Transformer가 길이 $T$의 입력 시퀀스를 단일 출력으로 매핑할 때의 VC 차원 (VC dimension)을 타이트하게 규정하며, $O(L W ext{log}(T W))$의 상한 (upper bound)과 이에 거의 일치하는 $\Omega(L W ext{log}(T W / L))$의 하한 (lower bound)을 확립합니다. 나아가 우리는 이러한 Transformer를 사용하는 사고의 사슬 (chain-of-thought, CoT) 학습의 샘플 복잡도 (sample complexity)를 타이트하게 규정하며, 티처 포싱 (teacher forcing, 즉 훈련 데이터 상의 전체 사고의 사슬과 일치하는 예측기를 선택하는 방식)이 $O\left(L W ext{log} \left(\left(T+T^{\prime}\right) W\right)\right)$의 샘플 복잡도로 학습됨을 보여줍니다. 또한 사고의 사슬 데이터를 사용하는 어떠한 학습 규칙이라도 최소한 $\Omega\left(L W ext{log} \left(\left(T+T^{\prime}\right) W / L\right)\right)$개의 예시를 필요로 함을 증명합니다. 여기서 $T$는 입력 길이이며 $T^{\prime}$은 자기회귀 (autoregressive) 단계의 수입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0