arXiv논문2026. 06. 10. 11:17

병렬 인과 연상 필드 (Parallel Causal Associative Fields): 긴 문맥 언어 모델링을 위한 게이트형 희소 메모리

요약

PCAF는 긴 문맥 처리를 위해 게이트형 희소 메모리를 사용하는 새로운 아키텍처를 제안합니다. 기존 Transformer의 제곱 복잡도와 순환 모델의 상태 압축 병목 현상을 동시에 해결하며, 해시 버킷 기반의 병렬 콘텐츠 주소 지정 방식을 통해 효율적인 긴 문맥 접근을 구현합니다.

핵심 포인트

해시 버킷을 활용한 병렬 콘텐츠 주소 지정 메모리 도입
고정된 순환 상태 병목 현상 없이 희소한 긴 문맥 접근 가능
WikiText-103 및 PG-19 벤치마크에서 밀집형 Transformer 대비 우수한 퍼플렉시티 달성
기존 로컬 어텐션 대비 높은 토큰 처리 속도(throughput) 증명

Transformers는 토큰 간 직접적인 통신 경로를 제공함으로써 강력한 언어 모델링 성능을 달성하지만, 인과적 셀프 어텐션 (causal self-attention)은 문맥 길이(context length)에 따라 제곱으로 확장됩니다. 순환 모델 (Recurrent models) 및 상태 공간 모델 (state-space models)은 이러한 비용을 줄여주지만, 과거 기록을 순차적으로 업데이트되는 고정된 크기의 상태 (states)로 압축합니다. 본 논문은 세 번째 원시 요소(primitive)인 인과적 후속 기록 (causal successor records)에 대한 병렬 콘텐츠 주소 지정 메모리 (parallel content-addressed memory)를 연구합니다. 제안된 병렬 인과 연상 필드 (Parallel Causal Associative Field, PCAF)는 문맥 창 (context window)으로부터 로컬 기록을 해시 버킷 (hash buckets)에 쓰고, 현재 쿼리에 대해 제한된 후보 집합을 검색하며, 후속 토큰에 대해 희소 캐시 분포 (sparse cache distribution)를 형성하고, 학습된 게이트 (learned gate)를 통해 해당 캐시를 파라미터화된 로컬 언어 모델과 혼합합니다. 결과적으로 생성된 모델은 단일 고정 순환 상태 병목 현상 (single fixed recurrent state bottleneck)을 피하면서 희소한 긴 문맥 접근 (sparse long-context access)을 유지합니다. 우리는 분산된 Google Cloud TPU v4-32 포드 (pod)를 사용하여 WikiText-103 및 PG-19에서 전체 자기회귀 사전 학습 (full autoregressive pretraining) 하에 PCAF를 평가합니다. 303M 파라미터 및 문맥 길이 T = 2048에서, PCAF-semantic은 WikiText-103에서 36.31의 퍼플렉시티 (perplexity)를, PG-19에서 52.45의 퍼플렉시티를 달성하였으며, 이는 동일한 조건의 밀집형 Transformer (dense Transformer)가 기록한 47.49 및 53.84와 비교됩니다. PCAF-semantic은 TPU 포드 전체에서 0.61-0.62M tokens/s를 동시에 처리하며, 이는 밀집형 및 로컬 어텐션 (local attention) 베이스라인의 0.43M tokens/s와 대조됩니다. 41M 파라미터 규모의 멀티 시드 스윕 (multi-seed sweeps) 및 단일 GPU 구성 요소 절제 연구 (component ablations)를 통해 연상 캐시 (associative cache), 검색 능력 (retrieval capacity), 그리고 학습된 게이트가 속도-품질 트레이드오프 (speed-quality trade-off)에 실질적인 영향을 미친다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

병렬 인과 연상 필드 (Parallel Causal Associative Fields): 긴 문맥 언어 모델링을 위한 게이트형 희소 메모리

요약

핵심 포인트

댓글