arXiv논문2026. 05. 27. 12:02

Kan Extension Transformers: Attention, Diffusion, 및 Predict-Detach

요약

Transformer 레이어를 구조적 확장 연산자로 정의하는 통합 프레임워크인 Kan Extension Transformers(KETs)를 제안합니다. KET는 표준 어텐션과 Geometric Transformer를 포함하는 고차 심플리셜 사례이며, 예측-분리(predict-detach) 메커니즘을 통해 성능을 극대화합니다.

핵심 포인트

Transformer를 가중치가 부여된 구조적 확장 연산자로 재정의
표준 어텐션과 Geometric Transformer를 KET의 특수 사례로 통합
예측-분리(predict-detach) 방식을 통한 효과적인 자기 조건화 메커니즘
WikiText 데이터셋 실험 결과, 이차 KET가 인과적 아키텍처 중 최고 성능 기록

우리는 다양한 Transformer 구현체들을 위한 통합적인 범주적 프레임워크(categorical framework)로서 Kan Extension Transformers (KETs)를 제안합니다. 핵심 주장은 Transformer 레이어가 가중치가 부여된 구조적 확장 연산자(weighted structured extension operator)로 간주될 수 있다는 것입니다. 즉, 표준 어텐션(standard attention)은 싱글톤 이웃(singleton-neighborhood) 사례이며, Geometric Transformer 스타일의 인시던스 믹싱(incidence mixing)은 희소한 에지 제한(sparse edge-restricted) 사례이고, KET는 고차 심플리셜(higher-order simplicial) 사례입니다. 이러한 관점은 디퓨전(diffusion) 스타일의 완성(completion)으로 이어지는 가교를 명확히 해줍니다. 확장 연산자가 Teacher-forcing 방식의 은닉 상태(hidden states) 대신 분리된 예측 캐리어(detached predictive carriers)에 작용할 때, 이는 정답 미래 토큰(gold future tokens)을 유출하지 않으면서 비인과적 구조(noncausal structure)를 드러내는 유효한 자기 조건화(self-conditioning) 메커니즘이 됩니다. 우리는 Penn Treebank, WikiText-2, 그리고 WikiText-103 데이터셋에서 엄격한 인과적(strict-causal) 방식과 예측-분리(predict-detach) 방식에 걸쳐 변화를 준 12가지의 서로 다른 Transformer 구현체에 대한 포괄적인 실험적 검증을 포함합니다. 엄격한 인과적 설정에서, 이차 KET(quadratic KET)는 WikiText-2 및 WikiText-103에서 비교된 인과적 아키텍처들 중 가장 강력한 모델입니다. 그러나 모든 데이터셋에 걸쳐, 가장 큰 이득은 단순히 이웃 가족(neighborhood family)을 변경하는 것보다 예측-분리(predict-detach) 방식에서 발생합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Kan Extension Transformers: Attention, Diffusion, 및 Predict-Detach

요약

핵심 포인트

댓글