arXiv논문2026. 06. 17. 12:28

ConSA: 학습 가능한 할당을 통한 하이브리드 어텐션에서의 제어 가능한 희소성 (Controllable Sparsity in Hybrid

요약

하이브리드 어텐션 구조에서 FA와 SWA의 최적 할당을 학습하는 프레임워크 ConSA를 제안합니다. L0 정규화와 증강 라그랑주 제약 조건을 통해 사용자가 지정한 희소성 목표에 맞춰 어텐션 유닛을 효율적으로 배치합니다.

핵심 포인트

수작업 규칙 대신 학습 가능한 방식으로 FA/SWA 할당 수행
L0 정규화와 증강 라그랑주 제약 조건을 통한 희소성 제어
KV-헤드 단위 할당이 레이어 단위보다 높은 성능 이득 제공
하위 레이어에는 SWA, 중간 레이어에는 FA를 배치하는 패턴 발견

전체 어텐션 (Full Attention, FA)과 슬라이딩 윈도우 어텐션 (Sliding-Window Attention, SWA)을 결합한 하이브리드 아키텍처는 효율적인 LLM 추론을 위한 유망한 패러다임입니다. 그러나 기존 방법들은 일반적으로 FA/SWA 할당을 위해 수작업으로 설계된 규칙이나 단순한 사후 휴리스틱 (post-hoc heuristics)에 의존하며, 이러한 설계의 근간이 되는 어텐션 동작에 대한 분석이 제한적입니다. 우리는 사용자가 지정한 희소성 (sparsity) 목표 하에서 최적의 FA/SWA 할당을 학습하는 프레임워크인 ConSA (Controllable Sparsity in Hybrid Attention)를 제안합니다. ConSA는 L0 정규화 (L0 regularization)를 사용하여 각 어텐션 유닛에 대해 FA와 SWA 중 하나를 선택하는 이진 마스크 (binary masks)를 학습하며, 증강 라그랑주 제약 조건 (augmented Lagrangian constraint)을 통해 레이어 (layer) 또는 KV-헤드 (KV-head) 입도 (granularity) 수준에서 목표 희소성을 강제합니다. 우리는 0.6B 및 1.7B 규모의 두 LLM에서 ConSA를 평가합니다. 학습된 할당은 규칙 기반 베이스라인 (rule-based baselines)보다 일관되게 우수한 성능을 보였으며, KV-헤드 단위 할당이 레이어 단위 할당보다 명확한 이득을 가져다주었습니다. 학습된 패턴은 SWA를 하위 레이어에 배치하고 FA를 인접한 중간 레이어 블록에 집중시키는데, 이는 규칙 기반 방법의 균등하게 교차된 패턴과는 다릅니다. 이러한 구조는 모델 규모, 희소성 수준 및 할당 입도에 관계없이 지속되며, 학습된 할당의 근간이 되는 내재적 어텐션 동작의 미세한 스펙트럼을 드러냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

ConSA: 학습 가능한 할당을 통한 하이브리드 어텐션에서의 제어 가능한 희소성 (Controllable Sparsity in Hybrid

요약

핵심 포인트

댓글