본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 16. 11:47

Reservoir Attention Network: 사전 학습된 Transformer의 Content-Addressable Reservoir

요약

Reservoir Attention Network(RAN)는 사전 학습된 Transformer의 중간 레이어에 고정된 무작위 리저버를 주입하여 상태를 전달하는 새로운 아키텍처를 제안합니다. 학습되지 않은 순환 역학만으로도 효과적인 상태 전달이 가능한지 연구하며, GPT-2와 Qwen2.5 모델을 통해 그 타당성을 검증합니다.

핵심 포인트

  • Transformer 중간 레이어에 고정된 무작위 리저버 주입
  • 학습되지 않은 순환 역학을 통한 상태 전달 메커니즘 연구
  • GPT-2 및 Qwen2.5 모델을 활용한 실험적 검증 수행
  • 계산 효율적인 상태 전달을 위한 새로운 아키텍처 제안

Reservoir Attention Network (RAN)의 타당성 및 역학 연구를 수행합니다. RAN은 사전 학습된 Transformer (Pretrained Transformer)의 중간 레이어 어텐션 (Attention)에 고정된 무작위 초기화 리저버 (Reservoir)를 주입하여, 순방향 패스 (Forward pass) 전반에 걸쳐 상태 (State)를 전달하는 아키텍처입니다. 실험은 단일 소비자용 GPU에서 GPT-2 (124M, 355M)부터 Qwen2.5 (0.5B, 1.5B)까지 범위를 아우릅니다. 과제들은 개별 메커니즘을 격리하기 위해 선택된 최소한의 프로브 (Probes)입니다. 더 넓은 의미의 '항상 살아있는 에이전트 (Always-alive agent)' 비전은 본 논문의 주장이 아니라, 계산 제한이 있는 향후 연구 과제로 다루어집니다. 리저버는 설계상 학습되지 않은 상태(고정된 무작위 상태)로 유지됩니다. 이는 학습되지 않은 순환 역학 (Recurrent dynamics)만으로도 사용 가능한 Cross-pass 상태를 전달하기에 충분한지를 격리하여 확인하기 위함이며, 학습된 순환 (Trained recurrence)은 보완적이고 더 비용이 많이 드는 방향으로 남겨둡니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0