HydraHead: 헤드 수준의 기능적 이질성에서 특화된 어텐션 하이브리드화로

어텐션 (Attention)의 이차 복잡도 (Quadratic complexity)는 긴 문맥 (Long-context) 처리의 결정적인 병목 현상을 야기하며, 이는 하이브리드 어텐션 설계에 대한 관심을 촉발했습니다. 대부분의 오픈 소스 하이브리드 모델은 레이어 단위 (Layer-wise) 전략을 채택합니다. 그러나 이전 연구들은 선형 어텐션 (Linear Attention, LA)과 풀 어텐션 (Full Attention, FA)을 통합하는 데 내재된 어려움을 지적해 왔으며, 이는 어텐션 하이브리드화의 설계 공간이 여전히 충분히 탐구되지 않았음을 시사합니다. 이 공간을 조사하기 위해 우리는 해석 가능성 분석 (Interpretability analysis)을 수행하였으며, 레이어들은 블록 단위 (Block-wise)의 기능적 유사성을 보이는 반면, 동일한 레이어 내의 개별 헤드 (Heads)들은 입력 특징을 공유함에도 불구하고 뚜렷한 기능적 전문화 (Functional specialization)를 나타낸다는 것을 관찰했습니다. 이러한 헤드 수준의 이질성 (Head-level heterogeneity)은 헤드 차원 (Head dimension)이 이질적인 어텐션 신호를 융합하기 위한 자연스럽고 원칙적인 입도 (Granularity)를 제공함을 시사합니다. 이러한 통찰을 바탕으로, 우리는 헤드 축을 따라 FA와 LA를 하이브리드화하는 새로운 아키텍처인 HydraHead를 소개합니다. HydraHead는 두 가지 핵심 혁신을 특징으로 합니다: (1) 검색에 중요한 헤드를 식별하고 해당 헤드에 대해서만 FA를 유지하는 해석 가능성 기반 선택 전략, 그리고 (2) FA와 LA 헤드 출력 간의 분포 차이를 조정하는 스케일 정규화 융합 모듈 (Scale-normalized fusion module)입니다. 파라미터 재사용 및 증류 (Distillation)를 포함한 3단계 전이 파이프라인 (Transfer pipeline)을 활용함으로써, 우리는 최소한의 학습 오버헤드로 고성능 하이브리드 모델을 달성합니다. 통합된 학습 설정 하에서, HydraHead는 강력한 일반 추론 능력을 유지하면서 긴 문맥 작업에서 다른 하이브리드 설계보다 뛰어난 성능을 보입니다. 해석 가능성 기반 헤드 선택을 통해, HydraHead는 7:1의 LA 대 FA 비율에서 3:1 레이어 단위 하이브리드 모델의 긴 문맥 성능과 일치하는 결과를 보여줍니다. 결정적으로, 단 15B 토큰으로 학습되었음에도 불구하고 HydraHead는 512K 문맥 길이에서 베이스라인 대비 69% 이상의 성능 향상을 달성하였으며, 이는 네이티브 문맥 길이가 256K인 유사한 크기의 선도적 모델인 Qwen3.5에 근접하는 수치입니다. 이는 헤드 수준 하이브리드화의 상당한 스케일링 잠재력을 강조합니다.

Insights

HydraHead: 헤드 수준의 기능적 이질성에서 특화된 어텐션 하이브리드화로

요약

핵심 포인트

댓글

연방 대법원, 정당 지출 제한 위헌 판결

Nostr 및 BitTorrent를 통한 탈중앙화된 LLM 공유

특보: Claude Sonnet 5가 오늘 출시됩니다

기밀 코드를 받아쓰기할 때: 클라우드에 목소리를 보내는 것을 중단한 이유

연방 대법원, 정당 지출 제한 위헌 판결

Nostr 및 BitTorrent를 통한 탈중앙화된 LLM 공유

특보: Claude Sonnet 5가 오늘 출시됩니다

기밀 코드를 받아쓰기할 때: 클라우드에 목소리를 보내는 것을 중단한 이유