arXiv논문2026. 06. 30. 13:33

하이브리드 어텐션 모델로의 변형 (Morphing into Hybrid Attention Models)

요약

Transformer 모델의 긴 문맥 효율성을 높이기 위해 전체 어텐션과 선형 어텐션을 결합하는 하이브리드 모델 최적화 연구입니다. FlashMorph라는 새로운 레이어 선택 방법을 제안하여, 예산 제약 내에서 최적의 레이어 구성을 효율적으로 찾아냅니다.

핵심 포인트

하이브리드 어텐션 모델의 레이어 선택을 부분집합 최적화 문제로 정식화
FlashMorph를 통해 효율적이고 확장 가능한 레이어 선택 방법 제안
선형화 규제와 게이트 공동 최적화를 통한 모델 변형 프로세스 구축
기존 방식 대비 낮은 비용으로 강력한 긴 문맥 재현율 및 성능 유지

하이브리드 어텐션 모델 (Hybrid attention models)은 전체 어텐션 (full-attention) 레이어의 일부만을 유지하고 나머지 레이어를 선형 어텐션 (linear attention)으로 교체함으로써 긴 문맥 효율성 (long-context efficiency)을 개선합니다. 그러나 Transformer에서 하이브리드로의 변환 (Transformer-to-hybrid conversion)의 효과는 어떤 레이어가 전체 어텐션을 유지하느냐에 따라 결정적으로 달라집니다. 기존의 하이브리드 레이어 선택 방법들은 일반적으로 고정된 배치 패턴이나 레이어별 점수 산정 (layerwise scoring)과 같은 휴리스틱 전략에 의존하며, 이는 레이어의 중요성을 개별적인 것으로 암묵적으로 취급하고 전역적인 하이브리드 구성 (global hybrid configuration) 하에서의 상호 의존적인 레이어 효과를 간과합니다. 본 연구에서는 하이브리드 레이어 선택을 예산 제약이 있는 부분집합 최적화 문제 (budget-constrained subset optimization problem)로 정식화합니다. 나아가 우리는 Transformer에서 하이브리드로의 변환을 위한 효과적이고 효율적이며 확장 가능한 레이어 선택 방법인 FlashMorph (Fast LAyer Selection for Hybrid MORPHing)를 제안합니다. FlashMorph는 먼저 각 전체 어텐션 레이어에 변환된 선형 어텐션 브랜치 (linear-attention branch)를 장착하여 변형 가능한 모델 (morphable model)을 구축합니다. 그 다음 모든 모델 가중치를 동결하고, 합성된 긴 문맥 검색 데이터 (synthetic long-context retrieval data)를 사용하여 레이어별 게이트 (layerwise gates)를 공동 최적화하며, 이때 모델이 효율성을 위해 선형 어텐션에 의존하도록 유도하는 선형화 규제 (linearization regularization)를 적용합니다. 학습된 게이트는 사전 설정된 전체 어텐션 예산 (full-attention budget)에 따라 이산화되어 하이브리드 아키텍처를 인스턴스화하며, 이후 표준 로짓 증류 (logits distillation) 및 긴 문맥 미세 조정 (long-context finetuning)이 수행됩니다. 광범위한 실험을 통해 FlashMorph가 기존 레이어 선택 방법들과 비교하여 레이어 선택 비용을 실질적으로 줄이면서도, 더 효과적인 하이브리드 구성을 발견하고 강력한 긴 문맥 재현율 (long-context recall) 및 일반 벤치마크 성능을 유지함을 보여줌으로써 그 효과성, 효율성 및 확장성을 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

하이브리드 어텐션 모델로의 변형 (Morphing into Hybrid Attention Models)

요약

핵심 포인트

댓글