arXiv논문2026. 06. 09. 10:44

Chiaroscuro Attention: 어둠 속에서 연산 자원을 활용하기

요약

CHIAR-Former는 토큰별 스펙트럼 엔트로피를 기반으로 연산 자원을 효율적으로 배분하는 하이브리드 트랜스포머 모델입니다. DCT, RBF 커널, 전체 셀프 어텐션 중 최적의 연산자를 선택하여 어텐션 FLOPs를 62.5% 절감하면서도 성능을 크게 향상시켰습니다.

핵심 포인트

토큰별 스펙트럼 엔트로피 기반의 동적 연산자 라우팅 제안
DCT와 어텐션 조합으로 어텐션 연산량 62.5% 감소
WikiText-103에서 베이스라인 대비 PPL 45% 개선
라우팅 붕괴 현상을 통해 스펙트럼 믹싱과 어텐션의 상호 보완성 확인

표준 트랜스포머(Standard transformers)는 입력이 동적인 토큰 간 상호작용(cross-token interaction)을 필요로 하는지 여부와 관계없이 모든 레이어와 토큰에서 셀프 어텐션(self-attention)을 균일하게 적용합니다. 우리는 이론적으로 정당화된 복잡도 신호인 토큰별 스펙트럼 엔트로피(per-token spectral entropy)를 기반으로 각 토큰을 세 가지 연산자 중 하나인 DCT 스펙트럼 믹싱(DCT spectral mixing), RBF 커널 믹싱(RBF kernel mixing), 또는 전체 셀프 어텐션(full self-attention)으로 라우팅하는 4개 레이어 하이브리드 트랜스포머인 CHIAR-Former (Chiaroscuro Attention)를 제안합니다. WikiText-103에 대한 체계적인 어블레이션(ablation) 연구를 통해 우리는 라우팅 붕괴(routing collapse)를 발견했습니다. 즉, 라우터가 DCT와 어텐션을 선호하며 RBF를 지속적으로 거부한다는 것인데, 이는 스펙트럼 믹싱(spectral mixing)과 동적 어텐션(dynamic attention)이 상호 보완적이며 충분하다는 것을 보여줍니다. 목적에 맞게 설계된 DCT+Attention 전용 변형 모델은 WikiText-103에서 Val PPL 36.54를 달성하였으며, 이는 어텐션 FLOPs를 62.5% 줄이면서도 전체 어텐션 베이스라인(PPL 66.62) 대비 45% 향상된 수치입니다. 우리는 평가를 WikiText-2, IMDB 감성 분류(sentiment classification), 그리고 합성 ListOps 연산으로 확장하여 명확한 작동 영역을 확립했습니다. CHIAR-Former는 토큰의 다양성이 스펙트럼 특성화(spectral specialisation)를 지원하는 대규모 자연어 텍스트에서 탁월한 성능을 보이는 반면, 전체 어텐션(full attention)은 작은 데이터셋과 합성 패턴 매칭(pattern-matching) 작업에서 우위를 유지합니다. 이러한 발견은 승리와 패배 모두를 포함하며, 스펙트럼 라우팅(spectral routing)이 언제, 왜 그 가치를 증명하는지를 함께 정의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Chiaroscuro Attention: 어둠 속에서 연산 자원을 활용하기

요약

핵심 포인트

댓글