arXiv논문2026. 06. 29. 11:28

컨텍스트 준비형 트랜스포머 (The Context-Ready Transformer)

요약

토큰이 블록에 진입하기 전 사전 컨텍스트화를 수행하는 새로운 순환 신경망 아키텍처인 'Context-Ready Transformer'를 제안합니다. 수정 네트워크를 통해 이전 컨텍스트 요약을 현재 임베딩과 결합하여 추론 효율성과 성능을 동시에 높였습니다.

핵심 포인트

D-레이어 블록을 통한 사전 컨텍스트화 메커니즘 도입
순차적 추론 시 순환 신경망(RNN) 구조로 동작 가능
표준 트랜스포머 대비 높은 생성 속도 및 성능 입증
긴 컨텍스트와 넓은 표현력에서 탁월한 이점 제공
기존 사전 학습된 트랜스포머를 미세 조정을 통해 변환 가능

우리는 각 토큰이 블록에 진입하기 전에 사전 컨텍스트화 (pre-contextualizes)를 수행하는 D-레이어 트랜스포머 블록으로 구축된 새로운 순환 신경망 (recurrent neural network) 아키텍처인 컨텍스트 준비형 트랜스포머 (context-ready transformer)를 소개합니다. 좌에서 우로 진행되는 생성 (left-to-right generation) 과정 동안, 수정 네트워크 (correction network)는 이전 위치의 블록 출력(과거 컨텍스트의 캐시된 요약)을 현재 토큰 임베딩 (token embedding)과 결합하여, 토큰이 가공되지 않은 임베딩 (raw embedding)이 아닌 이미 컨텍스트화된 상태로 블록에 진입하도록 합니다. 순차적 추론 (sequential inference) 시, 수정 체인 (correction chain)은 이 아키텍처를 순환 신경망 (recurrent neural network)으로 만듭니다. 학습을 위해, 우리는 전체 시퀀스에 대해 수정 프로세스를 K번 언롤링 (unroll)하며, 각 단계에서 모든 위치를 병렬로 처리합니다. 사전 학습된 트랜스포머 (pretrained transformer) 또한 제로 초기화된 수정 FFN (zero-initialized correction FFN)을 추가하고 미세 조정 (fine-tuning)함으로써 컨텍스트 준비형 모델로 변환될 수 있습니다. 우리는 너비 (widths), 깊이 (depths), 블록 크기 (block sizes) 및 두 개의 데이터셋에 대해 평가를 수행하였으며, 모든 비교는 표준 트랜스포머 (standard transformers), 변형 모델 (variants) 및 절제 연구 (ablations)를 대상으로 진행되었습니다. D=5 모델은 A100에서 1.7배 더 빠르게 생성하면서도 12레이어 트랜스포머를 능가합니다. K=10일 때, 단일 레이어 모델 (D=1)은 6레이어 트랜스포머를 능가하며 2.6배의 추론 속도 향상을 보였고, 순차적 추론은 병렬 K=10 방식과 0.01 PPL 이내의 차이로 일치했습니다. 이 아키텍처는 넓은 표현 (wide representations)과 긴 컨텍스트 (long contexts)에서 가장 큰 이점을 얻습니다. 포인터 체이싱 (pointer-chasing) 작업에서 BPTT로 학습된 D=1 모델은 10개의 모든 합성 레벨 (composition levels)을 해결하는 반면, 표준 트랜스포머는 계단식의 깊이 의존성 (staircase-like depth dependence)을 보입니다.

AI 자동 생성 콘텐츠

원문 바로가기

컨텍스트 준비형 트랜스포머 (The Context-Ready Transformer)

요약

핵심 포인트

댓글