CARVE: 청크 병렬 선형 어텐션(Chunk-Parallel Linear Attention)을 위한 가치 효율성을 갖춘 콘텐츠 인식 순환 모델
요약
CARVE는 기존 순환 모델의 메모리 맹목적 게이팅 문제를 해결하기 위해 '키 축에서만 삭제'하는 원칙을 도입한 새로운 순환 모델입니다. GPU 메모리 텐서를 재사용하여 효율성을 높였으며, 기존 GDN-2 대비 성능과 메모리 효율성을 모두 개선했습니다.
핵심 포인트
- 메모리 맹목적 게이팅 문제를 해결하는 CARVE 아키텍처 제안
- 키 축 기반 삭제 원칙을 통해 WY-form 솔버의 수학적 유효성 확보
- 1.3B 파라미터 규모에서 SOTA 성능 및 낮은 처리량 오버헤드 달성
- 피크 메모리 13% 감소 및 파라미터 수 19% 절감 효과
순환 모델(Recurrent models)은 기억하기 위해 반드시 망각해야 하지만, 현재의 최첨단 기술은 저장된 내용을 확인하지 않고 무엇을 지울지 결정합니다. 즉, 게이트(gate)는 새로 도착하는 토큰만을 볼 뿐, 자신이 수정하려는 메모리는 보지 못합니다. 이러한 메모리 맹목적 게이팅(memory-blind gating)은 선도적인 델타 규칙 아키텍처(delta-rule architecture)인 GDN-2에서 나타나는 세 가지 결합된 결함 중 하나입니다. 가치 축(value-axis) 삭제 마스크는 가치 투영(value projection) 규모만큼의 파라미터를 낭비하며, 우리가 증명했듯이, 순환 학습을 Transformer와 경쟁 가능하게 만드는 WY-form 삼각형 청크 솔버(triangular chunk solver)를 수학적으로 방해합니다.
우리는 하나의 원칙, 즉 '키 축(key axis)에서만 삭제하라'를 통해 이 세 가지 문제를 모두 해결하는 CARVE (Content-Aware Recurrent with Value Efficiency)를 소개합니다. 이는 WY-form 솔버가 유효하게 유지되기 위해 증명 가능한 필요충분조건입니다. CARVE는 이 구조 내에서 이미 GPU 메모리에 기록된 순환 출력 텐서(recurrent output tensor)를 삭제 게이트를 위한 무료 콘텐츠 신호로 재사용하며, 값별 쓰기 게이트 투영(per-value write-gate projection)을 헤드당 단일 스칼라(single scalar)로 대체합니다. 초기화 시 CARVE는 GDN-2와 비트 단위로 동일(bit-identical)하며, 품질의 차이는 콘텐츠 게이트가 무엇을 학습하느냐에서 발생합니다.
100B 토큰으로 학습된 1.3B 파라미터 규모에서, CARVE는 WikiText perplexity 15.72를 달성하였으며(GDN-2 대비 0.18 감소, 4.5-sigma 효과), 9개의 상식 추론 벤치마크에서 모든 순환 베이스라인을 앞질렀고, 모든 RULER 검색 프로브(retrieval probe)에서 최첨단(SOTA) 성능을 기록했습니다. 이 과정에서 처리량 오버헤드는 0.4%에 불과하며, 피크 메모리는 13% 낮고, 파라미터 수는 19% 더 적습니다. 메모리 용량, Lyapunov 안정성, 그래디언트 흐름(gradient flow), 표현력 분리(expressivity separation), 파레토 최적 청크 크기(Pareto-optimal chunk size), 그리고 하이브리드 최적성(hybrid optimality)을 다루는 6개의 정식 정리가 이를 뒷받침합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기