SubQ 입문 — 세계 최초 서브쿼드라틱(Subquadratic) LLM의 12M 컨텍스트와 52배 빠른 속도 - Insights | Molayo

2026년 5월 5일, SubQ사가 SubQ 1M-Preview를 출시했습니다. 이는 세계 최초의 「완전 서브쿼드라틱 아키텍처 (Subquadratic Architecture)」를 채택한 LLM입니다.

기존의 Transformer 기반 모델이 안고 있는 근본적인 과제로서, 어텐션 메커니즘 (Attention Mechanism)의 계산량이 컨텍스트 길이의 제곱(O(n²))으로 증가한다는 문제가 있습니다. SubQ는 이 제약을 아키텍처 레벨에서 해결하여, 계산량을 **선형 (O(n))**으로 억제하는 데 성공했습니다.

SubQ의 핵심 기술 「SSA (Subquadratic Sparse Attention)」의 원리
벤치마크 성능의 실제 (RULER · SWE-Bench · MRCR v2)
OpenAI 호환 API를 통한 이용 방법
기존 LLM과의 비용 · 성능 비교
SubQ가 실용적인 유스케이스 (Use Case)
LLM을 API로 활용하고 있는 엔지니어
대규모 컨텍스트 처리 (코드베이스 분석, 장문 문서 처리)에 관심이 있는 분
LLM의 아키텍처 동향을 파악하고 싶은 분
Python 3.10+
SubQ API 액세스 (프라이빗 베타, 웨이트리스트 신청 필요)
SubQ는 계산량 **O(n)**의 서브쿼드라틱 아키텍처를 채택한 세계 최초의 상용 LLM
프로덕션 환경에서 1M 토큰의 컨텍스트를 처리 (연구 구성에서는 12M 토큰 달성)
FlashAttention보다 52배 빠르고 63% 계산량 절감
RULER 128K 벤치마크에서 95.6% (Claude Opus 4.6의 94.8%를 상회)
OpenAI 호환 API로 이용 가능 (프라이빗 베타 중)

현재의 주요 LLM (GPT-5.5, Claude, Gemini 등)은 모두 Vaswani et al., 2017의 Attention Is All You Need 이후의 Transformer 아키텍처를 채택하고 있습니다.

Transformer의 어텐션 메커니즘에서는 길이 n의 시퀀스에 대해 다음과 같은 연산을 수행합니다:

Attention(Q, K, V) = softmax(QK^T / √d_k) V

이 QK^T 연산이 **O(n²)**의 계산량을 발생시킵니다. 컨텍스트 길이가 2배가 되면 계산량은 4배가 됩니다.

# 각 모델의 컨텍스트 길이와 비용 (개략적 수치)
context_4k: cost × 1
context_32k: cost × 64 (8배의 길이 → 64배의 비용)
...

이 「쿼드라틱 폭발 (Quadratic Explosion)」이 실용적인 초장기 컨텍스트 처리의 최대 장벽이었습니다.

SubQ가 채택하는 **SSA (Subquadratic Sparse Attention)**는 기존의 근사 기법 (국소적 어텐션, 랜덤 스파스니스 등)과는 근본적으로 다른 접근 방식입니다.

공식 블로그에 따르면, SSA는 쿼리 토큰마다 「어떤 키 토큰에 주의를 기울여야 하는가」를 동적으로 학습하는 콘텐츠 의존형 (Content-dependent) 스파스 어텐션 메커니즘입니다.

기존의 스파스화 기법과의 차이점을 정리합니다:

접근 방식	스파스화 방법	한계
Local Attention	고정 윈도우 내에서만 주의	장거리 의존 관계를 포착할 수 없음
...	SSA	콘텐츠를 보고 동적으로 선택

SSA는 각 쿼리 토큰이 관련 있는 키 토큰만을 선택하고, 그 작은 서브셋에 대해 완전한 어텐션 계산을 실행합니다. 이를 통해:

정보 손실 없음 (근사가 아닌 스파스 선택)
계산량이 O(n)에 수렴
FlashAttention보다 52배 빠름 (아키텍처 레벨 비교)
63%의 계산량 절감

Subquadratic는 11명의 박사급 연구원 (Meta, Google, Oxford, Cambridge 출신)이 「수학적 기초부터 설계했다」고 설명합니다. 기존 모델의 수정이 아니라, 제로 베이스에서 설계되었다는 점이 중요합니다.

공식 사이트 (subq.ai/introducing-subq)가 공개하고 있는 벤치마크 결과를 정리합니다.

RULER는 장기 컨텍스트 처리 능력을 측정하는 NVIDIA의 벤치마크입니다. 128K 토큰의 문서에서 정보를 추출하는 능력을 평가합니다.

모델	RULER 128K 점수
SubQ 1M-Preview	95.6%
Claude Opus 4.6	94.8%

※ 점수는 Subquadratic 공식 블로그(2026년 5월 5일)에 게시된 자체 공개 수치입니다.

※ DeepSeek V4 Pro: SubQ 공식 비교표에는 "DeepSeek 4.0 Pro"로 표기되어 있습니다.

SWE-bench는 실제 GitHub의 Issue를 자동으로 해결하는 능력을 측정합니다.

모델	SWE-bench Verified
SubQ 1M-Preview	81.8%
Claude Opus 4.6	80.8%
DeepSeek V4 Pro ※	80.0%

MRCR v2(8-needle, 1M tokens)는 1M 토큰의 컨텍스트 내에 흩어져 있는 8개의 정보를 동시에 추출하는 고난도 태스크입니다.

모델	MRCR v2 (1M 토큰)
GPT-5.5	74.0%
SubQ 1M-Preview	65.9%
Claude Opus 4.7	32.2%
Gemini 3.1 Pro	26.3%

주의: Subquadratic의 "1,000배 효율화"라는 주장에 대해, VentureBeat는 독립적인 연구자들이 그 증명을 요구하고 있다고 보도했습니다(참조). 벤치마크 수치에 대해서는 공식 페이지를 참조하고, 향후 독립적인 검증을 기다릴 것을 권장합니다.

SubQ API는 OpenAI 호환 REST 엔드포인트(Endpoint)를 제공합니다. 현재는 프라이빗 베타(Private Beta) 단계이므로, subq.ai에서 대기 명단(Waitlist) 신청이 필요합니다.

import openai
# SubQ API는 OpenAI 호환 엔드포인트를 제공합니다
client = openai.OpenAI(
...

# 표준적인 채팅 보완 (Chat Completion)
response = client.chat.completions.create(
    model="subq-1m-preview",
    ...

SubQ의 가장 큰 강점은 대규모 컨텍스트(Context) 처리입니다. 실제 유스케이스(Use case)로는 대규모 코드베이스(Codebase)의 일괄 분석을 들 수 있습니다.

import os
import openai
from pathlib import Path
...

# (중략)

full_codebase = "\n\n".join(code_files)
# 1M 토큰 컨텍스트를 활용하여 일괄 분석
response = client.chat.completions.create(
    ...

위의 코드는 공식 문서의 사양(OpenAI 호환 API, 모델 ID subq-1m-preview)을 기반으로 구성되었습니다. 실제 API의 상세 내용은 subq.ai의 공식 문서를 참조하십시오.

SubQ Code는 SubQ를 통합한 CLI 에이전트(Agent)입니다. 대규모 코드베이스 전체를 컨텍스트에 올려 자율적인 코드 분석 및 수정을 실행할 수 있습니다.

# SubQ Code CLI 설치 (프라이빗 베타)
pip install subq-code
# 코드베이스 전체를 분석
...

SubQ Code의 설치 명령 및 CLI 서브 커맨드(Subcommand)의 상세 내용은 현재(프라이빗 베타) 비공개입니다. 위의 코드는 SubQ Code의 기능을 상상하기 위한 의사 코드(Pseudo code)입니다. 실제 설치 방법 및 명령어는 액세스 권한을 얻은 후 제공되는 공식 문서를 참조하십시오.

SubQ Code의 강점은 기존의 Claude Code나 Codex처럼 코드를 분할하지 않고, 프로젝트 전체를 한 번에 파악한 상태에서 코드를 생성할 수 있다는 점입니다.

Subquadratic가 공개한 비용 비교(공식 발표)를 정리합니다.

모델	RULER 128K 점수	추정 비용
SubQ 1M-Preview	95.6%	약 $8
Claude Opus 4.6	94.8%	약 $2,600

동등한 정확도에서 비용이 약 1/325로 절감되는 계산입니다. 이 차이는 서브쿼드라틱(Subquadratic) 아키텍처에 의한 선형 스케일링(Linear scaling)이 직접적으로 작용했기 때문입니다.

이 비용 비교는 128K 토큰의 긴 컨텍스트 (Long-context) 태스크에서의 수치입니다. 짧은 컨텍스트(수천 토큰)에서는 이 정도의 차이가 발생하지 않습니다. 서브쿼드라틱 (Subquadratic) 아키텍처의 우위는 컨텍스트 길이가 길어질수록 더욱 커집니다.

SubQ의 1M 토큰 컨텍스트가 특히 빛을 발하는 상황을 정리합니다.

50만 행 규모의 코드베이스를 한 번에 파악하여, 버그 탐색, 리팩터링 (Refactoring) 제안, 아키텍처 분석을 실행할 수 있습니다.

법률 사무소의 방대한 판례 문서 및 계약서를 일괄 조회하거나, 의료 분야에서 수천 건의 논문을 서베이 (Survey) 할 수 있습니다.

수백만 행의 서버 로그를 일괄 분석하여 이상 탐지 및 근본 원인 분석 (Root cause analysis)을 수행하는 용도입니다.

1,000페이지 이상의 기술서 및 연구 보고서를 컨텍스트에 담아 질의응답을 수행할 수 있습니다.

현재 SubQ 1M-Preview에는 다음과 같은 제한 사항이 있습니다:

액세스 제한: 프라이빗 베타 (Private beta, 웨이트리스트 신청 필요) -
요금 미공개: 가격은 웨이트리스트 신청 후 안내되는 형식 -
Windows 대응: SubQ Code의 Windows 지원 여부는 공식 사이트에서 확인 필요 -
성능 검증: 성능 주장(Claim)의 일부는 독립적인 제3자 검증을 기다리는 상태

subq.ai 에서 웨이트리스트 신청
신청 양식에 유스케이스 (Use case) 및 소속 기입
심사 후 API 키 발급

SubQ Search (장문 리서치 도구)는 무료로 이용 가능할 수도 있습니다. 자세한 내용은 공식 사이트를 참조하십시오.

SubQ는 LLM 아키텍처의 근본적인 돌파구 (Breakthrough)를 구현한 모델입니다.

아키텍처의 혁신: O(n²) → O(n)의 선형 스케일링 (Linear scaling)을 실현하는 SSA -
실용적인 성능: RULER, SWE-Bench, MRCR v2에서 기존 프론티어 모델 (Frontier models)과 동등하거나 그 이상의 성능 구현 -
비용 효율성: 긴 컨텍스트 태스크에서 기존 대비 1/300 이상의 비용 절감 가능 -
OpenAI 호환성: 기존 코드를 거의 그대로 이전 가능

기술적인 주장 중 일부는 독립 검증을 기다리는 부분이 있으나, '서브쿼드라틱 아키텍처'라는 개념 자체는 업계에서 오랫동안 갈망해 온 접근 방식입니다. 특히 대규모 컨텍스트 처리가 필요한 엔지니어라면 주목할 가치가 있습니다.

Introducing SubQ: The First Fully Subquadratic LLM — Subquadratic 공식 블로그
How SSA Makes Long Context Practical — SSA 기술 해설 (공식)
SubQ by Subquadratic — Models, Pricing & API — LLM Reference
Subquadratic launches with $29M — SiliconANGLE
The context window has been shattered — The New Stack
독립적인 증명을 요구하는 연구자들의 목소리 — VentureBeat

SubQ 입문 — 세계 최초 서브쿼드라틱(Subquadratic) LLM의 12M 컨텍스트와 52배 빠른 속도

요약

핵심 포인트

댓글