arXiv논문2026. 06. 16. 11:47

Reservoir Attention Network: 사전 학습된 Transformer의 Content-Addressable Reservoir

요약

Reservoir Attention Network(RAN)는 사전 학습된 Transformer의 중간 레이어에 고정된 무작위 리저버를 주입하여 상태를 전달하는 새로운 아키텍처를 제안합니다. 학습되지 않은 순환 역학만으로도 효과적인 상태 전달이 가능한지 연구하며, GPT-2와 Qwen2.5 모델을 통해 그 타당성을 검증합니다.

핵심 포인트

Transformer 중간 레이어에 고정된 무작위 리저버 주입
학습되지 않은 순환 역학을 통한 상태 전달 메커니즘 연구
GPT-2 및 Qwen2.5 모델을 활용한 실험적 검증 수행
계산 효율적인 상태 전달을 위한 새로운 아키텍처 제안

Reservoir Attention Network (RAN)의 타당성 및 역학 연구를 수행합니다. RAN은 사전 학습된 Transformer (Pretrained Transformer)의 중간 레이어 어텐션 (Attention)에 고정된 무작위 초기화 리저버 (Reservoir)를 주입하여, 순방향 패스 (Forward pass) 전반에 걸쳐 상태 (State)를 전달하는 아키텍처입니다. 실험은 단일 소비자용 GPU에서 GPT-2 (124M, 355M)부터 Qwen2.5 (0.5B, 1.5B)까지 범위를 아우릅니다. 과제들은 개별 메커니즘을 격리하기 위해 선택된 최소한의 프로브 (Probes)입니다. 더 넓은 의미의 '항상 살아있는 에이전트 (Always-alive agent)' 비전은 본 논문의 주장이 아니라, 계산 제한이 있는 향후 연구 과제로 다루어집니다. 리저버는 설계상 학습되지 않은 상태(고정된 무작위 상태)로 유지됩니다. 이는 학습되지 않은 순환 역학 (Recurrent dynamics)만으로도 사용 가능한 Cross-pass 상태를 전달하기에 충분한지를 격리하여 확인하기 위함이며, 학습된 순환 (Trained recurrence)은 보완적이고 더 비용이 많이 드는 방향으로 남겨둡니다.

AI 자동 생성 콘텐츠

원문 바로가기

Reservoir Attention Network: 사전 학습된 Transformer의 Content-Addressable Reservoir

요약

핵심 포인트

댓글