SubQ는 2026년 5월 5일, 1,200만 토큰의 컨텍스트 윈도우 (context window)와 함께 출시되었으며, 주목할 만한 주장을 내세웠습니다. 바로 이차 어텐션 (quadratic attention) 기반이 아닌 최초의 상용 프런티어 LLM이라는 점입니다. 그 이후 이 문구는 모든 피드에 등장했습니다. 이에 관한 대부분의 게시물은 subquadratic (차수 미만)이 실제로 무엇을 의미하는지, 또는 SubQ의 접근 방식이 지난 2년 동안 동일한 목표를 쫓아온 Mamba 및 RWKV와 어떻게 다른지 정의하지 않습니다. 요약하자면(TL;DR), 이차 어텐션 (Quadratic attention)은 컨텍스트를 두 배로 늘리면 연산량이 네 배로 증가함을 의미합니다. 이것이 모든 롱 컨텍스트 (long-context) 모델이 마주하는 벽입니다. 이 분야에서는 이 벽을 깨기 위해 세 가지 방법을 시도해 왔습니다: 고정 패턴 희소 어텐션 (fixed-pattern sparse attention; Longformer, BigBird), 상태 공간 재귀 (state-space recurrence; Mamba, RWKV), 그리고 학습된 희소 어텐션 (learned-sparse attention)입니다. SubQ의 SSA는 세 번째 방식에 해당합니다. 1,200만 컨텍스트 윈도우는 1년 전 GPT-4o급 모델이 제공했던 것의 약 60배에 달합니다. 솔직한 첫 번째 사용 사례는 전체 코드베이스, 긴 에이전트 추적 (agent traces), 그리고 문서 검토이지, "책 한 권이 통째로 들어간다"는 식은 아닙니다.

벽이 존재하는 이유
표준 트랜스포머 어텐션 (Standard transformer attention)은 입력 내의 모든 토큰 쌍 사이의 유사도 점수 (similarity score)를 계산합니다. n개의 토큰 입력에 대해, 이는 n × n 번의 비교를 의미합니다. n = 1,000일 때 이는 100만 번입니다. n = 1,000,000일 때 이는 1조 번입니다. 연산량 (FLOPs)보다 메모리 대역폭 (Memory bandwidth)이 먼저 포화 상태에 이르는데, 이것이 FlashAttention이 도움이 되었던 이유입니다. FlashAttention은 캐시 친화적(cache-friendly)이 되도록 작업을 타일링 (tiled)했습니다. 하지만 FlashAttention은 방정식의 n² 부분을 바꾸지는 못했습니다. 연산량은 여전히 이차적으로 (quadratically) 확장됩니다. 단지 동일한 하드웨어에서 더 빠르게 실행될 뿐입니다. 스케일링 (scaling)은 설명하는 것보다 수치로 느끼는 것이 더 쉽기에 간단한 수치 예시를 들어보겠습니다:

Naive cost model. SSA의 실제 비용은 O(n)과 O(n log n) 사이입니다.

def quadratic_ops ( n : int ) -> int : return n * n
def linear_ops ( n : int ) -> int : return n

# 200K 컨텍스트에서 12M 컨텍스트로 전환할 때:
print ( quadratic_ops ( 200_000 )) # 40,000,000,000 -> 400억
print ( quadratic_ops ( 12_000_000 )) # 144,000,000,000,000 -> 144조 (3,600배 증가)
print ( linear_ops ( 12_000_000 )) # 12,000,000 -> 3,600배가 아닌 60배 증가

이 격차 — 3,600배 대 60배 — 가 바로 Subquadratic Attention (Subquadratic Attention)의 핵심적인 비즈니스 케이스입니다.

한계를 돌파하는 세 가지 방법

Fixed-pattern sparse attention (고정 패턴 희소 어텐션)
모든 쌍을 계산하지 마세요. 미리 희소 패턴 (sparsity pattern)을 선택합니다: 로컬 윈도우 (local window)와 몇 개의 글로벌 토큰 (global tokens)의 조합 (Longformer), 블록 희소 (block-sparse, BigBird), 스트라이드 (strided, Sparse Transformers) 방식 등이 있습니다. 이 방식이 작동하는 이유는 실제 텍스트의 대부분의 토큰 쌍이 서로 의미 있게 영향을 주고받지 않기 때문입니다. 비용: 학습 전에 구조를 선택해야 하며, 미래의 입력값에 대해 추측해야 한다는 단점이 있습니다.

State-space models (상태 공간 모델)
어텐션 (Attention)을 완전히 대체합니다. 과거의 정보를 한 번에 하나의 토큰씩 업데이트되는 고정된 크기의 은닉 상태 (hidden state)로 압축합니다. Mamba, Mamba-2, RWKV, RetNet이 모두 이 범주에 속합니다. 구조적으로 컨텍스트 길이 (context length)에 대해 선형적 (Linear)입니다. 비용: 고정된 상태는 손실이 발생합니다 (lossy). 발표된 Needle-in-a-haystack 벤치마크에서, 100K 토큰 뒤에 묻혀 있는 특정 사실에 대한 회상 (recall) 능력은 전체 어텐션 (full attention) 방식보다 지속적으로 약하게 나타납니다.

Learned-sparse attention (학습된 희소 어텐션)
어텐션 연산을 유지합니다. 하지만 주어진 입력에 대해, 추론 (inference) 시점에 쿼리 (query)당 어떤 쌍을 계산할 가치가 있는지 학습합니다. SubQ의 SSA — Subquadratic Selective Attention (Subquadratic 선택적 어텐션) — 가 여기에 해당합니다. 희소 패턴이 아키텍처에 미리 박혀 있는 것이 아니라, 동적으로 선택됩니다. RULER 128K 벤치마크에서 Subquadratic는 동일한 작업 부하에 대해 Claude Opus가 약 2,600달러를 소모하는 것과 비교하여, 실행당 약 8달러의 비용으로 95%의 정확도를 보고했습니다. 동일한 정확도 범위 내에서 연산 비용을 약 300배 적게 사용한 것입니다. 프레임워크가 중요합니다: SSA는

그것은 마케팅 버전입니다. 솔직한 첫 번째 사용 사례는 다음과 같습니다: 전체 코드베이스 (Whole codebases). 중간 규모의 저장소 (repo)는 주석과 테스트를 포함하여 200만500만 (2–5M) 토큰에 달합니다. 이제 검색 레이어 (retrieval layer) 없이도 이를 수용할 수 있습니다. 긴 에이전트 추적 (Long agent traces). 도구 출력 (tool outputs)을 포함한 4시간 동안의 에이전트 실행은 쉽게 100만300만 (1–3M) 토큰이 됩니다. 요약하는 대신 전체 추적을 다음 단계의 컨텍스트 (context)로 다시 재생할 수 있습니다. 대규모 문서 검토 (Document review at scale). 인수 합병 데이터 룸 (merger data room)은 800만~1,500만 (8–15M) 토큰입니다. 청킹 (chunking)이나 재순위화 (re-ranking) 없이 전체 세트에 대해 하나의 질문을 던질 수 있습니다. 1,200만 (12M) 컨텍스트가 보장해주지 못하는 것은 해당 토큰들에 대한 더 나은 추론 (reasoning)입니다. 컨텍스트 윈도우 (window)가 길어진다는 것은 모델이 더 많은 것을 본다는 것을 의미하지만, 모델이 실제로 관련 사실을 찾아내고 사용할 수 있는지는 별개의 문제입니다. RULER는 정확히 이것을 측정하며, 95%는 인상적이지만 100%는 아닙니다.

주의 사항 및 미결 과제
전체 1

"Subquadratic Attention"의 실제 의미

요약

핵심 포인트

Naive cost model. SSA의 실제 비용은 O(n)과 O(n log n) 사이입니다.

댓글