"Subquadratic Attention"의 실제 의미
요약
SubQ 모델이 도입한 Subquadratic Attention(SSA)의 기술적 원리와 기존 이차 어텐션의 한계를 분석합니다. SSA는 학습된 희소 어텐션 방식을 통해 1,200만 토큰의 롱 컨텍스트를 효율적으로 처리하며 연산 비용을 획기적으로 낮춥니다.
핵심 포인트
- 이차 어텐션은 컨텍스트 증가 시 연산량이 제곱으로 급증하는 한계가 있음
- SubQ의 SSA는 학습된 희소 어텐션 방식을 사용하여 O(n)과 O(n log n) 사이의 비용 실현
- 1,200만 토큰 컨텍스트를 통해 코드베이스 및 긴 에이전트 추적 처리에 최적화
- FlashAttention은 속도를 개선하지만 연산량의 이차적 확장 문제는 해결하지 못함
SubQ는 2026년 5월 5일, 1,200만 토큰의 컨텍스트 윈도우 (context window)와 함께 출시되었으며, 주목할 만한 주장을 내세웠습니다. 바로 이차 어텐션 (quadratic attention) 기반이 아닌 최초의 상용 프런티어 LLM이라는 점입니다. 그 이후 이 문구는 모든 피드에 등장했습니다. 이에 관한 대부분의 게시물은 subquadratic (차수 미만)이 실제로 무엇을 의미하는지, 또는 SubQ의 접근 방식이 지난 2년 동안 동일한 목표를 쫓아온 Mamba 및 RWKV와 어떻게 다른지 정의하지 않습니다. 요약하자면(TL;DR), 이차 어텐션 (Quadratic attention)은 컨텍스트를 두 배로 늘리면 연산량이 네 배로 증가함을 의미합니다. 이것이 모든 롱 컨텍스트 (long-context) 모델이 마주하는 벽입니다. 이 분야에서는 이 벽을 깨기 위해 세 가지 방법을 시도해 왔습니다: 고정 패턴 희소 어텐션 (fixed-pattern sparse attention; Longformer, BigBird), 상태 공간 재귀 (state-space recurrence; Mamba, RWKV), 그리고 학습된 희소 어텐션 (learned-sparse attention)입니다. SubQ의 SSA는 세 번째 방식에 해당합니다. 1,200만 컨텍스트 윈도우는 1년 전 GPT-4o급 모델이 제공했던 것의 약 60배에 달합니다. 솔직한 첫 번째 사용 사례는 전체 코드베이스, 긴 에이전트 추적 (agent traces), 그리고 문서 검토이지, "책 한 권이 통째로 들어간다"는 식은 아닙니다.
벽이 존재하는 이유
표준 트랜스포머 어텐션 (Standard transformer attention)은 입력 내의 모든 토큰 쌍 사이의 유사도 점수 (similarity score)를 계산합니다. n개의 토큰 입력에 대해, 이는 n × n 번의 비교를 의미합니다. n = 1,000일 때 이는 100만 번입니다. n = 1,000,000일 때 이는 1조 번입니다. 연산량 (FLOPs)보다 메모리 대역폭 (Memory bandwidth)이 먼저 포화 상태에 이르는데, 이것이 FlashAttention이 도움이 되었던 이유입니다. FlashAttention은 캐시 친화적(cache-friendly)이 되도록 작업을 타일링 (tiled)했습니다. 하지만 FlashAttention은 방정식의 n² 부분을 바꾸지는 못했습니다. 연산량은 여전히 이차적으로 (quadratically) 확장됩니다. 단지 동일한 하드웨어에서 더 빠르게 실행될 뿐입니다. 스케일링 (scaling)은 설명하는 것보다 수치로 느끼는 것이 더 쉽기에 간단한 수치 예시를 들어보겠습니다:
Naive cost model. SSA의 실제 비용은 O(n)과 O(n log n) 사이입니다.
def quadratic_ops ( n : int ) -> int : return n * n
def linear_ops ( n : int ) -> int : return n
# 200K 컨텍스트에서 12M 컨텍스트로 전환할 때:
print ( quadratic_ops ( 200_000 )) # 40,000,000,000 -> 400억
print ( quadratic_ops ( 12_000_000 )) # 144,000,000,000,000 -> 144조 (3,600배 증가)
print ( linear_ops ( 12_000_000 )) # 12,000,000 -> 3,600배가 아닌 60배 증가
이 격차 — 3,600배 대 60배 — 가 바로 Subquadratic Attention (Subquadratic Attention)의 핵심적인 비즈니스 케이스입니다.
한계를 돌파하는 세 가지 방법
Fixed-pattern sparse attention (고정 패턴 희소 어텐션)
모든 쌍을 계산하지 마세요. 미리 희소 패턴 (sparsity pattern)을 선택합니다: 로컬 윈도우 (local window)와 몇 개의 글로벌 토큰 (global tokens)의 조합 (Longformer), 블록 희소 (block-sparse, BigBird), 스트라이드 (strided, Sparse Transformers) 방식 등이 있습니다. 이 방식이 작동하는 이유는 실제 텍스트의 대부분의 토큰 쌍이 서로 의미 있게 영향을 주고받지 않기 때문입니다. 비용: 학습 전에 구조를 선택해야 하며, 미래의 입력값에 대해 추측해야 한다는 단점이 있습니다.
State-space models (상태 공간 모델)
어텐션 (Attention)을 완전히 대체합니다. 과거의 정보를 한 번에 하나의 토큰씩 업데이트되는 고정된 크기의 은닉 상태 (hidden state)로 압축합니다. Mamba, Mamba-2, RWKV, RetNet이 모두 이 범주에 속합니다. 구조적으로 컨텍스트 길이 (context length)에 대해 선형적 (Linear)입니다. 비용: 고정된 상태는 손실이 발생합니다 (lossy). 발표된 Needle-in-a-haystack 벤치마크에서, 100K 토큰 뒤에 묻혀 있는 특정 사실에 대한 회상 (recall) 능력은 전체 어텐션 (full attention) 방식보다 지속적으로 약하게 나타납니다.
Learned-sparse attention (학습된 희소 어텐션)
어텐션 연산을 유지합니다. 하지만 주어진 입력에 대해, 추론 (inference) 시점에 쿼리 (query)당 어떤 쌍을 계산할 가치가 있는지 학습합니다. SubQ의 SSA — Subquadratic Selective Attention (Subquadratic 선택적 어텐션) — 가 여기에 해당합니다. 희소 패턴이 아키텍처에 미리 박혀 있는 것이 아니라, 동적으로 선택됩니다. RULER 128K 벤치마크에서 Subquadratic는 동일한 작업 부하에 대해 Claude Opus가 약 2,600달러를 소모하는 것과 비교하여, 실행당 약 8달러의 비용으로 95%의 정확도를 보고했습니다. 동일한 정확도 범위 내에서 연산 비용을 약 300배 적게 사용한 것입니다. 프레임워크가 중요합니다: SSA는
그것은 마케팅 버전입니다. 솔직한 첫 번째 사용 사례는 다음과 같습니다: 전체 코드베이스 (Whole codebases). 중간 규모의 저장소 (repo)는 주석과 테스트를 포함하여 200만500만 (2–5M) 토큰에 달합니다. 이제 검색 레이어 (retrieval layer) 없이도 이를 수용할 수 있습니다. 긴 에이전트 추적 (Long agent traces). 도구 출력 (tool outputs)을 포함한 4시간 동안의 에이전트 실행은 쉽게 100만300만 (1–3M) 토큰이 됩니다. 요약하는 대신 전체 추적을 다음 단계의 컨텍스트 (context)로 다시 재생할 수 있습니다. 대규모 문서 검토 (Document review at scale). 인수 합병 데이터 룸 (merger data room)은 800만~1,500만 (8–15M) 토큰입니다. 청킹 (chunking)이나 재순위화 (re-ranking) 없이 전체 세트에 대해 하나의 질문을 던질 수 있습니다. 1,200만 (12M) 컨텍스트가 보장해주지 못하는 것은 해당 토큰들에 대한 더 나은 추론 (reasoning)입니다. 컨텍스트 윈도우 (window)가 길어진다는 것은 모델이 더 많은 것을 본다는 것을 의미하지만, 모델이 실제로 관련 사실을 찾아내고 사용할 수 있는지는 별개의 문제입니다. RULER는 정확히 이것을 측정하며, 95%는 인상적이지만 100%는 아닙니다.
주의 사항 및 미결 과제
전체 1
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기