12M 토큰 컨텍스트 > SubQ가 바꾸려는 LLM 스케일링
요약
SubQ가 제안한 새로운 아키텍처는 기존 트랜스포머의 가장 큰 문제점인 긴 컨텍스트 처리 비용과 속도 문제를 해결하는 데 초점을 맞추고 있습니다. 핵심은 'SSA(Selective Sparse Attention)'라는 접근 방식으로, 모든 토큰 간의 관계를 계산하던 방식 대신 내용 기반으로 필요한 위치만 선택적으로 어텐션을 수행합니다. 이 기술은 단순히 컨텍스트 길이를 늘리는 것을 넘어, 긴 문맥 속에서 흩어진 정보까지 정확하고 효율적으로 회수할 수 있게 함으로써 LLM 스케일링의 패러다임을 변화시키고자 합니다.
핵심 포인트
- SubQ는 12M 토큰 컨텍스트를 목표로 하며, 단순히 길이만 늘리는 것이 아니라 비용과 속도 문제를 해결하는 데 중점을 둡니다.
- 핵심 기술인 SSA(Selective Sparse Attention)는 모든 관계를 계산하는 기존 Dense Attention 대신, 내용 기반으로 필요한 위치만을 선택하여 어텐션을 수행합니다.
- SSA는 고정된 패턴을 보는 기존의 Sparse Attention과 달리, 문맥에 따라 중요한 정보를 동적으로 찾아낼 수 있어 정보 손실 위험이 적습니다.
- 기술적 우위를 입증하며, 1M 토큰 처리 시 FlashAttention 대비 최대 52.2배 빠른 입력 처리가 가능함을 제시했습니다.
- 개발 관점에서 이는 전체 코드베이스나 프로젝트 히스토리 등 방대한 작업 기억을 한 번에 로드하여 추론할 수 있는 새로운 코딩 에이전트의 기반을 마련합니다.
12M 토큰 컨텍스트 > SubQ가 바꾸려는 LLM 스케일링
SubQ라는 너무 인상적인 모델이 공개되었네요! 굉장히 설렙니다..
중요한건 단순히 컨텍스트가 길다는데에 있지 않다고 봐요.
12M 토큰 컨텍스트를 목표로 하면서도, 기존 Transformer의 가장 큰 병목인 attention 비용 자체를 줄이려는 접근이예요.
조금 과장 없이 말하면, 긴 컨텍스트 LLM의 방향을 다시 생각하게 만드는 발표입니다.
↓
기존 Transformer의 self-attention은 강력하지만 비쌌죠. 이유는 단순해요.
모든 토큰이 모든 토큰과 관계를 계산하기 때문입니다.
토큰 수가 2배가 되면 비용은 2배가 아니라 4배에 가까워집니다.
그러니까 컨텍스트가 길어질수록 비용과 속도 문제가 폭발적으로 커져요.
↓
그래서 지금까지 우리는 여러 우회로를 써왔습니다.
- 문서를 잘게 쪼개고
- RAG로 필요한 조각만 가져오고
- 요약하고
- 에이전트가 여러 번 나눠 읽고
- 컨텍스트를 압축합니다
물론 유용하지만 중요한 정보가 조각 사이에 흩어져 있으면, 의미/위치/참조 관계가 쉽게 손실됩니다.
↓
SubQ가 제안하는 키는 "SSA" 입니다.
대략 선택적 희소 어텐션에 가까운 접근이라고 얘기하는데,,
기존 dense attention은 모든 관계를 계산하지만, SSA는 각 토큰이 실제로 봐야 할 중요한 위치를 내용 기반으로 선택합니다.
어디를 볼지를 미리 고정하지 않고, 문맥을 보고 결정합니다.
↓
이 차이가 상당히 중요하다고 보는데요.
기존 sparse attention은 보통 슬라이딩 윈도우나 고정 패턴처럼 '정해진 위치'를 봅니다.
문제는 중요한 정보가 그 패턴 밖에 있으면 놓칠 수 있다는 점이겠죠.
SSA는 위치가 아니라 내용에 따라 볼 곳을 고릅니다.
그래서 멀리 떨어진 코드, 계약 조항, 연구 문서의 근거도 다시 찾아올 수 있다는 것이 SubQ의 주장입니다.
↓
SubQ의 설명을 보면 SSA의 목표는 세 가지로 정리됩니다.
- attention 비용과 메모리를 선형에 가깝게 줄이는 것.
- 관련 위치를 내용 기반으로 라우팅하는 것.
- 긴 컨텍스트 안의 임의 위치에서 필요한 정보를 다시 회수하는 것.
이게 사실이라면 긴 입력을 받을 수 있는 모델과,,
긴 입력을 실제로 잘 쓰는 모델의 차이를 줄일 수 있겠죠.
↓
SubQ가 공개한 수치도 꽤 공격적입니다?!
공식 기술 블로그 기준으로 SSA는 FlashAttention 기반 dense attention 대비..
- 128K 토큰: 7.2배 빠른 입력 처리
- 256K 토큰: 13.2배
- 512K 토큰: 23.0배
- 1M 토큰: 52.2배
긴 컨텍스트로 갈수록 차이가 더 커지는 구조입니다.
↓
벤치마크도 굉장해요.
- RULER @ 128K: 95.0%
- MRCR v2: 65.9%
- SWE-Bench Verified: 81.8%
특히 MRCR v2는 단순히 바늘 하나를 찾는 테스트가 아니라, 긴 문맥 곳곳에 흩어진 여러 근거를 찾아 연결해야 하는 테스트라서 더 의미가 있죠.
↓
개발 관점에서는 SubQ Code가 특히 흥미로운데요.
전체 코드베이스, PR 히스토리, 테스트, 이전 의사결정까지 하나의 긴 컨텍스트로 넣고 reasoning하는 방향입니다.
지금의 코딩 에이전트는.. 필요한 파일을 찾아가며 일하는 방식에 가깝다면,
SubQ는 처음부터 훨씬 더 많은 작업 기억을 들고 시작하는 방식에 가깝다고 봐요.
↓
이제 곧 공식 모델 카드와 더 자세한 기술 리포트가 공개될텐데,,
그 때 실제 품질, 비용, latency, API 안정성, 코딩 에이전트에서의 체감 성능은 더 검증이 필요하겠죠.
그럼에도 이번 발표에 특히 주목하는 이유는 이거예요.
LLM의 다음 병목이 더 큰 모델이 아니라, 더 많은 문맥을 더 싸고 정확하게 다루는 구조일 수 있기 때문이죠.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @lucas_flatwhite (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기