HydraHead: 헤드 수준의 기능적 이질성으로부터의 특화된 어텐션 하이브리드화
요약
HydraHead는 레이어 단위가 아닌 헤드 단위로 Full Attention과 Linear Attention을 결합하는 새로운 하이브리드 어텐션 아키텍처를 제안합니다. 해석 가능성 분석을 통해 검색에 중요한 헤드를 식별하고, 스케일 정규화 융합 모듈을 통해 효율적인 성능 향상을 달성합니다.
핵심 포인트
- 레이어 단위가 아닌 헤드 수준의 기능적 이질성을 활용한 하이브리드 설계
- 해석 가능성 기반의 검색 중요 헤드 식별 및 FA 보존 전략
- FA와 LA 헤드 간의 분포 차이를 조정하는 스케일 정규화 융합 모듈 도입
- 512K 긴 문맥 작업에서 기존 하이브리드 모델 대비 압도적 성능 향상
어텐션 (Attention)의 이차 복잡도 (quadratic complexity)는 긴 문맥 (long-context) 처리의 결정적인 병목 현상을 야기하며, 이는 하이브리드 어텐션 (hybrid attention) 설계에 대한 관심을 촉발했습니다. 대부분의 오픈 소스 하이브리드 모델들은 레이어 단위 (layer-wise) 전략을 채택합니다. 그러나 이전 연구들은 선형 어텐션 (Linear Attention, LA)과 전체 어텐션 (Full Attention, FA)을 통합하는 데 내재된 어려움을 지적해 왔으며, 이는 어텐션 하이브리드화의 설계 공간이 여전히 충분히 탐구되지 않았음을 시사합니다. 이 공간을 조사하기 위해 우리는 해석 가능성 분석 (interpretability analysis)을 수행하였으며, 레이어들은 블록 단위 (block-wise)의 기능적 유사성을 보이는 반면, 동일한 레이어 내의 개별 헤드 (heads)들은 입력 특징을 공유함에도 불구하고 뚜렷한 기능적 전문화 (functional specialization)를 나타낸다는 것을 관찰했습니다. 이러한 헤드 수준의 이질성 (head-level heterogeneity)은 헤드 차원 (head dimension)이 이질적인 어텐션 신호들을 융합하기 위한 자연스럽고 원칙적인 입도 (granularity)를 제공함을 시사합니다. 이러한 통찰을 바탕으로, 우리는 헤드 축 (head axis)을 따라 FA와 LA를 하이브리드화하는 새로운 아키텍처인 HydraHead를 소개합니다. HydraHead는 두 가지 핵심 혁신을 특징으로 합니다: (1) 검색에 중요한 헤드 (retrieval-critical heads)를 식별하고 해당 헤드에 대해서만 FA를 보존하는 해석 가능성 기반 선택 전략, 그리고 (2) FA와 LA 헤드 출력 사이의 분포 차이 (distributional gap)를 조정하는 스케일 정규화 융합 모듈 (scale-normalized fusion module)입니다. 파라미터 재사용 (parameter reuse) 및 증류 (distillation)를 포함한 3단계 전이 파이프라인 (three-stage transfer pipeline)을 활용함으로써, 우리는 최소한의 학습 오버헤드로 고성능 하이브리드 모델을 달성합니다. 통합된 학습 설정 하에서, HydraHead는 강력한 일반 추론 능력을 유지하면서 긴 문맥 작업에서 다른 하이브리드 설계들을 능가합니다. 해석 가능성 기반 헤드 선택을 통해, HydraHead는 7:1의 LA 대 FA 비율에서 3:1 레이어 단위 하이브리드의 긴 문맥 성능과 일치하는 결과를 보여줍니다. 결정적으로, 단 15B 토큰으로 학습되었음에도 불구하고, HydraHead는 512K 문맥 길이에서 베이스라인 대비 69% 이상의 성능 향상을 달성하며, 이는 네이티브 문맥 길이가 256K인 유사한 규모의 선도적 모델인 Qwen3.5에 근접하는 수치입니다. 이는 헤드 수준 하이브리드화의 상당한 스케일링 잠재력 (scaling potential)을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기