X요약2026. 05. 06. 23:32

12M 토큰 컨텍스트 > SubQ가 바꾸려는 LLM 스케일링

요약

SubQ가 제안한 새로운 아키텍처는 기존 트랜스포머의 가장 큰 문제점인 긴 컨텍스트 처리 비용과 속도 문제를 해결하는 데 초점을 맞추고 있습니다. 핵심은 'SSA(Selective Sparse Attention)'라는 접근 방식으로, 모든 토큰 간의 관계를 계산하던 방식 대신 내용 기반으로 필요한 위치만 선택적으로 어텐션을 수행합니다. 이 기술은 단순히 컨텍스트 길이를 늘리는 것을 넘어, 긴 문맥 속에서 흩어진 정보까지 정확하고 효율적으로 회수할 수 있게 함으로써 LLM 스케일링의 패러다임을 변화시키고자 합니다.

핵심 포인트

SubQ는 12M 토큰 컨텍스트를 목표로 하며, 단순히 길이만 늘리는 것이 아니라 비용과 속도 문제를 해결하는 데 중점을 둡니다.
핵심 기술인 SSA(Selective Sparse Attention)는 모든 관계를 계산하는 기존 Dense Attention 대신, 내용 기반으로 필요한 위치만을 선택하여 어텐션을 수행합니다.
SSA는 고정된 패턴을 보는 기존의 Sparse Attention과 달리, 문맥에 따라 중요한 정보를 동적으로 찾아낼 수 있어 정보 손실 위험이 적습니다.
기술적 우위를 입증하며, 1M 토큰 처리 시 FlashAttention 대비 최대 52.2배 빠른 입력 처리가 가능함을 제시했습니다.
개발 관점에서 이는 전체 코드베이스나 프로젝트 히스토리 등 방대한 작업 기억을 한 번에 로드하여 추론할 수 있는 새로운 코딩 에이전트의 기반을 마련합니다.

 SubQ라는 너무 인상적인 모델이 공개되었네요! 굉장히 설렙니다..

중요한건 단순히 컨텍스트가 길다는데에 있지 않다고 봐요.

 12M 토큰 컨텍스트를 목표로 하면서도, 기존 Transformer의 가장 큰 병목인 attention 비용 자체를 줄이려는 접근이예요.

조금 과장 없이 말하면, 긴 컨텍스트 LLM의 방향을 다시 생각하게 만드는 발표입니다.

↓

 기존 Transformer의 self-attention은 강력하지만 비쌌죠. 이유는 단순해요.
 
모든 토큰이 모든 토큰과 관계를 계산하기 때문입니다.

토큰 수가 2배가 되면 비용은 2배가 아니라 4배에 가까워집니다. 

그러니까 컨텍스트가 길어질수록 비용과 속도 문제가 폭발적으로 커져요.

↓

 그래서 지금까지 우리는 여러 우회로를 써왔습니다.

문서를 잘게 쪼개고
RAG로 필요한 조각만 가져오고
요약하고
에이전트가 여러 번 나눠 읽고
컨텍스트를 압축합니다

물론 유용하지만 중요한 정보가 조각 사이에 흩어져 있으면, 의미/위치/참조 관계가 쉽게 손실됩니다.

↓

 SubQ가 제안하는 키는 "SSA" 입니다. 
대략 선택적 희소 어텐션에 가까운 접근이라고 얘기하는데,,

기존 dense attention은 모든 관계를 계산하지만, SSA는 각 토큰이 실제로 봐야 할 중요한 위치를 내용 기반으로 선택합니다.

어디를 볼지를 미리 고정하지 않고, 문맥을 보고 결정합니다.

↓

 이 차이가 상당히 중요하다고 보는데요.

기존 sparse attention은 보통 슬라이딩 윈도우나 고정 패턴처럼 '정해진 위치'를 봅니다.

 문제는 중요한 정보가 그 패턴 밖에 있으면 놓칠 수 있다는 점이겠죠.

SSA는 위치가 아니라 내용에 따라 볼 곳을 고릅니다. 

그래서 멀리 떨어진 코드, 계약 조항, 연구 문서의 근거도 다시 찾아올 수 있다는 것이 SubQ의 주장입니다.

↓

 SubQ의 설명을 보면 SSA의 목표는 세 가지로 정리됩니다.

attention 비용과 메모리를 선형에 가깝게 줄이는 것. 
관련 위치를 내용 기반으로 라우팅하는 것. 
긴 컨텍스트 안의 임의 위치에서 필요한 정보를 다시 회수하는 것.

이게 사실이라면 긴 입력을 받을 수 있는 모델과,,

긴 입력을 실제로 잘 쓰는 모델의 차이를 줄일 수 있겠죠.

↓

 SubQ가 공개한 수치도 꽤 공격적입니다?!

공식 기술 블로그 기준으로 SSA는 FlashAttention 기반 dense attention 대비..

128K 토큰: 7.2배 빠른 입력 처리
256K 토큰: 13.2배
512K 토큰: 23.0배
1M 토큰: 52.2배

긴 컨텍스트로 갈수록 차이가 더 커지는 구조입니다.

↓

 벤치마크도 굉장해요.

RULER @ 128K: 95.0%
MRCR v2: 65.9%
SWE-Bench Verified: 81.8%

특히 MRCR v2는 단순히 바늘 하나를 찾는 테스트가 아니라, 긴 문맥 곳곳에 흩어진 여러 근거를 찾아 연결해야 하는 테스트라서 더 의미가 있죠.

↓

 개발 관점에서는 SubQ Code가 특히 흥미로운데요.

전체 코드베이스, PR 히스토리, 테스트, 이전 의사결정까지 하나의 긴 컨텍스트로 넣고 reasoning하는 방향입니다.

지금의 코딩 에이전트는.. 필요한 파일을 찾아가며 일하는 방식에 가깝다면,

SubQ는 처음부터 훨씬 더 많은 작업 기억을 들고 시작하는 방식에 가깝다고 봐요.

↓

 이제 곧 공식 모델 카드와 더 자세한 기술 리포트가 공개될텐데,,

 그 때 실제 품질, 비용, latency, API 안정성, 코딩 에이전트에서의 체감 성능은 더 검증이 필요하겠죠.

그럼에도 이번 발표에 특히 주목하는 이유는 이거예요.

LLM의 다음 병목이 더 큰 모델이 아니라, 더 많은 문맥을 더 싸고 정확하게 다루는 구조일 수 있기 때문이죠.

AI 자동 생성 콘텐츠

원문 바로가기

12M 토큰 컨텍스트 > SubQ가 바꾸려는 LLM 스케일링

요약

핵심 포인트

댓글