arXiv논문2026. 06. 01. 12:04

고정된 Universal Transformers

요약

입력 임베딩을 통해 특정 클래스의 모든 트랜스포머를 시뮬레이션할 수 있는 고정된 'Universal Transformers'를 제안합니다. 무작위로 초기화된 트랜스포머도 충분한 임베딩 차원을 가지면 보편성을 가질 수 있음을 이론적, 실증적으로 증명합니다.

핵심 포인트

고정된 파라미터로 다양한 트랜스포머 모델 시뮬레이션 가능
입력 임베딩이 대상 모델의 설명을 인코딩하는 역할 수행
무작위 초기화된 트랜스포머의 보편성(Universality) 입증
표현력의 핵심이 가중치보다 입력 표현에 있을 가능성 시사

우리는 extit{universal transformers}: 적절한 입력 임베딩 (input embedding)을 통해 주어진 클래스 내의 어떠한 트랜스포머 (transformer)도 시뮬레이션할 수 있는 고정된 트랜스포머를 소개합니다. 범용 튜링 머신 (universal Turing machine)과 유사하게, 입력 임베딩은 대상 모델의 설명을 인코딩하는 반면 모든 내부 파라미터 (parameters)는 고정된 상태로 유지됩니다. 우리는 임베딩 차원 (embedding dimension)이 충분히 클 때 보편성 (universality)을 달성하는 명시적인 희소 구조 (sparse constructions)를 제공하며, 나아가 보편성이 일반적 (generic)임을 보여줍니다. 즉, 무작위로 초기화된 트랜스포머는 거의 확실하게 (almost surely) 보편적이며, 이는 Zhong과 Andreas (2024)의 최근 실증적 결과와 일치합니다. 우리는 괄호 균형 맞추기 (parenthesis balancing) 및 멀티홉 추론 (multi-hop reasoning)과 같은 알고리즘 작업에서 우리의 이론을 실증적으로 검증합니다. 우리의 결과는 트랜스포머의 표현력 (expressive power) 중 상당 부분이 학습된 가중치 (learned weights)보다는 입력 표현 (input representation)에 존재할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

고정된 Universal Transformers

요약

핵심 포인트

댓글