본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 26. 02:09

Full Attention의 반격: 수백 번의 학습 단계 내에 Full Attention을 Sparse로 전이하기

요약

LLM의 긴 문맥 추론 시 발생하는 Full Attention의 비용 문제를 해결하기 위해 RTPurbo를 제안합니다. 모델의 본질적인 희소성을 활용하여 단 수백 번의 학습 단계만으로 Full Attention 모델을 효율적인 Sparse 모델로 전이할 수 있습니다.

핵심 포인트

  • RTPurbo는 최소한의 적응으로 Full Attention을 Sparse로 변환
  • 1M 문맥에서 Prefill 속도 최대 9.36배 향상
  • Decode 속도 약 2.01배 향상 및 정확도 손실 최소화
  • 동적 top-p 선택과 경량 토큰 인덱서 도입

대규모 언어 모델 (LLM)의 긴 문맥 추론 (Long-context inference)은 Full Attention (전체 주의 집중)의 이차 비용 (quadratic cost)으로 인해 병목 현상이 발생합니다. 기존의 효율적인 대안들은 주로 네이티브 Sparse (희소) 학습에 의존하거나 휴리스틱한 토큰 제거 (token eviction) 방식에 의존하며, 이는 효율성, 학습 비용, 정확도 사이의 바람직하지 않은 트레이드오프 (trade-off)를 생성합니다. 본 연구에서는 Full-attention LLM이 이미 본질적으로 Sparse (희소)하며, 최소한의 적응만으로도 고도로 Sparse한 모델로 변환될 수 있음을 보여줍니다. 우리의 접근 방식은 세 가지 관찰 결과에 기반합니다: (1) 오직 어텐션 헤드 (attention heads)의 작은 하위 집합만이 진정으로 전체 긴 문맥 처리를 필요로 합니다; (2) 장거리 검색 (long-range retrieval)은 주로 저차원 부분 공간 (low-dimensional subspace)에 의해 제어되므로, 16차원 인덱서 (indexer)를 통해 관련 토큰을 효율적으로 검색할 수 있습니다; (3) 유용한 토큰 예산은 쿼리 (query)에 강하게 의존하므로, 고정된 top-p 희소화 (sparsification)보다 동적인 top-p 선택이 더 적합합니다. 이러한 통찰을 바탕으로, 우리는 검색 헤드 (retrieval heads)에 대해서만 Full KV 캐시 (KV cache)를 유지하고 Sparse Attention을 위한 경량 토큰 인덱서를 도입하는 RTPurbo를 제안합니다. 모델의 본질적인 Sparsity (희소성)를 활용함으로써, RTPurbo는 단 수백 번의 학습 단계만으로 희소화를 달성합니다. 긴 문맥 벤치마크 및 추론 작업에 대한 실험 결과, RTPurbo는 1M 문맥에서 최대 9.36배의 Prefill (프리필) 속도 향상 및 약 2.01배의 Decode (디코드) 속도 향상을 포함한 상당한 효율성 이득을 제공하면서도 손실이 거의 없는 정확도를 유지함을 보여줍니다. 이러한 결과는 값비싼 네이티브 Sparse 사전 학습 (pretraining) 없이도 표준 Full-attention 학습으로부터 강력한 Sparse 추론을 얻을 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0