LongCat-2.0 공개 - Nvidia 없이 학습한 1.6조 파라미터 오픈소스 모델 - Insights | Molayo

총
1.6조(1.6T) 파라미터와 토큰당 약 480억 개 활성화 규모의 대규모 MoE 언어 모델로, 오픈소싱과 함께 여러 아키텍처 개선 동반 - 전체 학습과 대규모 배포를 전부
AI ASIC 슈퍼팟에서 수행, 35조 개 이상 토큰에 걸친 사전학습을 롤백·복구 불가능한 손실 급증 없이 완료 LongCat Sparse Attention(LSA)도입과 수천억 토큰 규모의1M 컨텍스트데이터 학습으로 장기 과제 성능 강화- Claude Code, OpenClaw, Hermes 등 주류 하네스와 긴밀히 통합되어 코드 이해, 저장소 단위 수정, 자동 작업 실행, 에이전트 워크플로우에서 강한 성능 제공
Nvidia GPU 생태계 대비 미성숙한 대체 하드웨어에서
프런티어급 학습이 가능함을 입증, 인프라·후처리 학습 전반의 최적화가 실제 과제 수행 능력으로 이어짐

모델 개요

1.6조 파라미터규모의 대규모 MoE 언어 모델로, 토큰당 약 480억 파라미터만 활성화하며 이전 LongCat 모델 대비 큰 진전 이룸- 전체 학습 실행과 대규모 배포 모두
AI ASIC 슈퍼팟기반으로 구축- 사전학습은 수백만 accelerator-day 규모로 35조 개 이상 토큰에 걸쳐 진행, 롤백이나 복구 불가능한 loss spike 없이 완료

대체 하드웨어 플랫폼에서 프런티어급 학습을 수행할 역량 입증
장기 과제 강화를 위해
LongCat Sparse Attention도입, 수천억 토큰의 1M 컨텍스트 데이터로 학습 - Claude Code, OpenClaw, Hermes 등 주류 하네스와 깊게 통합, 코드 이해·저장소 단위 편집·자동 작업 실행·에이전트 워크플로우 전반에서 안정적이고 효율적인 협업 경험 제공

아키텍처

LongCat-Flash기반 위에 파라미터 효율성을 더 밀어붙이고 긴 컨텍스트 학습·추론 속도 개선- 어텐션에는
**LongCat Sparse Attention(LSA)**도입- DeepSeek Sparse Attention의 진화형으로, 더 가벼운 indexer로 모델 품질 손상 없이 긴 컨텍스트 처리 가속

N-gram Embedding모듈 추가- N-gram 토큰 조합을 통해 임베딩 공간을 약 100배 확장, 더 풍부한 로컬 컨텍스트 포착 및 토큰 단위 표현 강화

LongCat Sparse Attention

에이전트형 애플리케이션 확산으로 LLM은 효율적 긴 입력 처리 방향으로 이동 중
DSA는 세밀한 sparse attention으로 대응하나, 프로파일링 결과 DSA의
Lightning Indexer가 출력 불연속성과 2차(quadratic) 스코어링 비용 때문에 핵심 병목으로 남음
DSA는 세밀한 sparse attention으로 대응하나, 프로파일링 결과 DSA의
LSA는 indexer에 서로 독립적인(orthogonal) 세 가지 효율 개선 도입
Streaming-aware Indexing(SI): 하드웨어 정렬 연속 접근과 동적 랜덤 선택을 결합하도록 토큰 선택 예산 재구성, 파편화된 메모리 접근을 예측 가능한 순차 읽기로 전환해 coalesced HBM 접근과 높은 유효 대역폭 달성Cross-Layer Indexing(CLI): 인접 레이어 간 attention saliency의 경험적 안정성을 활용해 인덱싱 비용 분산, 추론 시 단일 인덱싱 패스가 여러 연속 레이어에 사용되며 학습 중 cross-layer distillation으로 가능Hierarchical Indexing(HI): coarse-to-fine 2단계 스코어링으로, 먼저 블록 단위 근사 스코어링으로 개략 recall 후 후보 내에서 세밀한 토큰 선택, LongCat-2.0에서는 학습 없이(training-free) 적용되며 선택된 초장기 컨텍스트 과제에 활성화
세 구성요소는 설계상 독립적이라 각각 개별 활성화·비활성화 가능
세 전략을 3단계
**Multi-Token Prediction(MTP)**모듈로 확장해 speculative decoding 가속- Cross-Layer Indexing은 draft·target 모델에서 다르게 적용, target 모델은 연속 2개 레이어가 단일 인덱싱 패스 공유
다단계 MTP에서는 3개 draft step이 하나의 패스 공유, step 2·3은 step 1이 생성한 index set 재사용

N-gram Embedding

LongCat-Flash-Lite에서 계승, MoE와 직교하는 sparse 차원으로 파라미터를 확장해 파라미터 활용 효율 개선- n-gram 크기는 5로 설정, 모델에
135B N-gram Embedding 파라미터포함

n-gram 크기는 5로 설정, 모델에
다음 스케일링 원칙 준수
MoE의 sparsity가 sweet spot을 넘어섬: N-gram Embedding 없이도 sparsity가 약 97%에 도달해 expert를 135B 늘려도 성능 이득은 미미, 동일 파라미터 규모의 N-gram Embedding이 표준 expert보다 훨씬 큰 이득 제공N-gram Embedding 비중은 최적 범위 내로 제한: 스케일링 실험 결과 n-gram 임베딩 파라미터가 전체 예산의 과도한 비중(50% 초과)을 차지하면 expert 확장 대비 이점 감소, LongCat-2.0에서는 이 비중을 10% 미만으로 엄격 유지
추론 시 expert에서 N-gram Embedding으로 파라미터를 옮기면 대규모 배치 디코딩의 메모리 I/O 감소, 생성 가속

AI ASIC 슈퍼팟 기반 확장형 인프라

학습·배포는 수만 개 AI ASIC 슈퍼팟의 대규모 클러스터 기반
성숙한 Nvidia GPU 생태계 대비 지원 소프트웨어 커뮤니티는 아직 덜 발전, 안정적·안전·확장 가능한 인프라 구축에 상당한 노력 투입

학습(Training)

5만 개 이상 AI ASIC에서 사전학습, 모델·클러스터 규모로 인한 시스템 수준 난제 발생- 체계적 최적화로 naive 구현 대비
학습 처리량 35% 이상 개선하며 신뢰성도 함께 강화

체계적 최적화로 naive 구현 대비

결정성 & 신뢰성(Determinism & Reliability)

재현성 확보를 위해 통신·연산 경로 전반에 결정성 강제, Embedding·FA·LSA·MoE 레이어를 아우르는 자체 결정적 연산자·모듈 제공
수치 신뢰성을 위해 기초 연산자 재작업, 예: 모든 reduction 계열 연산자는 binary-tree 분할 누산 전략으로 부동소수점 오차 누적 감소
실제 LLM 워크로드에서 accelerator 연산 정밀도를 엄격한 고정밀 baseline과 대조 검증, 산술적 무결성과 프로덕션 준비 상태 확인
일부 연산 집약 연산자에 bit-flip 감지 도입해 하드웨어 비트 플립 이상 즉시 포착
장애 복구는 end-to-end 모니터링으로 장애 식별·트래픽 전환·복구를 수동 개입 없이 수행, 결함 링크 격리 시 학습에 체감 영향 없음, 복구된 링크는 스트레스 테스트 통과 후 재합류

대규모 학습(Training at Scale)

accelerator의 장치당 메모리가 H800(80GB)보다 크게 적어 메모리가 규모 확장의 주요 병목, 병렬화 전략과 메모리 관리 두 축으로 대응
6D 병렬화: 표준 TP/CP/EP/DP/PP를 넘어 N-gram Embeddings를 병렬화·가속하는 EMBP 도입슈퍼팟: 각 최대 48대 머신의 물리 슈퍼팟에서 학습, 내부는 all-to-all 고대역폭, 팟 간은 RoCE fabric으로 연결해 대역폭 요구가 큰 병렬화(TP/CP/EP)를 위한 고대역폭 통신 도메인을 수백 개 장치로 확장- 동일 규모·환경에서 사전학습 처리량 약 30% 추가 이득 제공
논리 슈퍼팟은 affinity 스케줄링 단위로, 통신 지역성과 스케줄 가능성 간 균형 조정

메모리 최적화: ZeRO-1, 선택적 recomputation, allocator 수준의 OOM-aware offloading, padding 토큰을 zero-expert로 라우팅 적용Muon optimizer: accelerator에서 대규모로 배치, TP 병렬화·DP state 중복 제거·효율적 대칭 행렬 곱 커널 전반에 표적 최적화 적용

긴 컨텍스트 학습(Long Context Training)

대규모 긴 컨텍스트 학습 난제를 세 각도에서 대응
LSA 연산자 & forward 최적화: dense-warmup·sparse 단계 및 KL-loss 연산자용 자체 결정적 어텐션 연산자 구현, forward-only dense-warmup 전략으로 KL loss와 gradient를 단일 forward 패스에서 계산해 효율 개선1M 컨텍스트 스케일링: CP를 512 이상으로 확장 가능한 all-gather 기반 CP 병렬화로 native 1M 길이 학습 실현, get-batch 단계에서 데이터 재셔플·균형 CP 전략으로 워크로드 균형 유지연산-통신 오버랩: 예로 shortcut-layer 아키텍처는 MoE 통신을 병렬 분기 연산과 오버랩, LSA top-k 인덱스 연산은 KV all-gather와 오버랩해 동기화 오버헤드 감소

추론(Inference)

1M 토큰 컨텍스트에서 1.6T 파라미터 모델 서빙은 HBM 용량·HBM I/O 대역폭·노드 간 인터커넥트 대역폭의 엄격한 제약하에 큰 난제, 모델·장치·배포 수준의 최적화 스택으로 대응

모델 특화 최적화

Attention: 초장기 컨텍스트의 I/O·연산·메모리 병목을 세 관점에서 최적화- (1) prefill·decode 단계 모두에서 absorb 연산 모드 채택

(2) indexer를 MLA prolog와 동시 스트림으로 파이프라이닝해 indexer 오버헤드 은닉
(3)
**KV-cache parallelism(KVP)**로 KV-cache를 장치 간 샤딩

ScMoE: LongCat-Flash의 연산-통신 오버랩을 기반으로 스케줄을 더 발전, accelerator의 명시적 per-core 제어를 활용해 dense·MoE 분기를 완전 병렬 실행하며 단순 오버랩 수준을 넘어섬

Accelerator 지향 최적화

Super Kernel: graph 모드에서 커널 간 간극은 제거되나 커널 내부 launch 오버헤드가 남아, super kernel로 이 intra-kernel launch 비용 감소Weight Prefetch: 장치는 HBM 대역폭이 제한적이나 상대적으로 큰 L2 캐시 보유, 이 큰 L2 캐시로 가중치를 prefetch해 앞선 연산자 계산 중 I/O 지연 은닉Scale Up and Scale Out: P·D 노드 간 KV-cache 전송은 accelerator 내장 200Gbps 네트워크 어댑터 활용, KV-cache는 레이어 단위 전송, KV-cache store는 host RDMA 네트워크 어댑터로 구성, TP/SP/KVP는 scale-up 인터커넥션 도메인 내에서 수행

배포 & 서빙

최적 병렬화: TTFT와 TPOT 균형을 위해 prefill–decode(PD) 분리 배포 채택Prefill 노드: 긴 시퀀스 처리는 노드 간 통신 대역폭에 묶이고 MoE dispatch/combine 트래픽이 런타임 지배, multi-node chunked pipeline parallelism(CPP)으로 expert-parallel(EP) 도메인 축소, 각 파이프라인 스테이지 내 Attention Sequence Parallelism(SP)으로 긴 시퀀스 연산 압박 완화Decode 노드: 주요 제약은 장치 메모리와 KV-cache I/O, KVP로 KV-cache 샤딩해 장치당 메모리 풋프린트 감소, 큰 EP 차수(EP128)로 장치당 가중치 메모리와 expert I/O 동시 절감- 두 단계 모두에서 병렬화 방식(CPP/SP·KVP)이 constrained decoding·multi-step scheduling·MTP 같은 추론 시 최적화와 깔끔하게 조합되도록 설계

Expert-Parallel Load Balancing(EPLB): decode 노드의 큰 EP 차수로 expert 간 부하 불균형 가능성 증가, EPLB로 대응하며 서빙 오버헤드 최소화를 위해 통계 수집·배치 연산을 forward critical path 밖에서 비동기 수행

다수 교사로부터의 학습(Learning from Multiple Teachers)

전체 성능 향상과 역량 경계 확장을 위해 후처리 학습 파이프라인에 전문 expert-group 설계 도입, 세 범주로 구성
Agent Experts: 복잡한 실제 시나리오의 자율 작업 실행 개선, 코드·업무·검색 등 세밀한 수직 도메인에서 SOTA급 성능 달성- end-to-end 작업 성공률뿐 아니라 에이전트 견고성을 뒷받침하는 원자적 역량 최적화, 정밀한 tool 호출·다중 턴 API 상호작용의 신뢰성 있는 파라미터 파싱·무한 루프와 반복 호출을 완화하는 자기 교정 메커니즘 포함

Reasoning Experts: 논리 추론 깊이 확장 및 문제 난이도 기반 적응적 연산 활성화, 수학·STEM 문제 해결·multi-hop 추론에서 강한 성능 제공해 복잡한 분석 시나리오 처리 능력 향상Interaction Experts: 인간 정렬과 사용자 경험 최적화에 집중, 다양한 애플리케이션에서 세밀한 지시 따르기 개선, 고급 정렬 기법으로 사실 환각 억제, 유용성 훼손 없이 경계가 명확한 안전 메커니즘 확립- 최종적으로
MOPD 아키텍처로 세 expert 그룹의 가장 강한 역량 통합, 강한 에이전트 실행·깊은 추론·고품질 상호작용을 결합해 복잡한 사용자 요구를 정확히 이해하고 어려운 실제 과제를 신뢰성 있게 완수

모델 역량 시연

긴 컨텍스트 추론과 전용 후처리 학습으로 실제 과제 수행에 강점

Codebase Migration

전체 코드베이스와 마이그레이션 문서를 함께 읽고 아키텍처를 매핑, 플러그인 전체를 새 SDK로 재작성
기존 기능 전부 보존, 잠재 버그 포착, 첫 빌드에서 clean 컴파일

평가(Evaluations)

코드·일반 에이전트·기초 역량 전반에서 주요 상용 모델과 비교,

*

표시 외 모든 점수는 통합 하네스로 자체 측정(0–100 정규화) -

Code Agent

Terminal-Bench 2.1: LongCat-2.0
70.8, Gemini 3.1 Pro 70.7*, GPT-5.5 73.8*, Claude Opus 4.7 71.7*, Opus 4.8 78.9* - SWE-bench Pro: LongCat-2.0
59.5, Gemini 3.1 Pro 54.2*, GPT-5.5 58.6*, Opus 4.6 57.3*, Opus 4.7 64.3*, Opus 4.8 69.2* - SWE-bench Multilingual: LongCat-2.0
77.3, Gemini 3.1 Pro 76.9*, Opus 4.6 77.8*, Opus 4.7 80.5*, Opus 4.8 84.8*
Terminal-Bench 2.1: LongCat-2.0

General Agent

FORTE†: LongCat-2.0
73.2, Gemini 3.1 Pro 70.3, GPT-5.5 77.8, Opus 4.6 73.2, Opus 4.7 77.6, Opus 4.8 77.2 - BrowseComp: LongCat-2.0
79.9, Gemini 3.1 Pro 85.9*, GPT-5.5 84.4*, Opus 4.6 84.0*, Opus 4.7 79.3*, Opus 4.8 84.3* - RWSearch: LongCat-2.0
78.8, Gemini 3.1 Pro 76.3, GPT-5.5 85.3, Opus 4.6 81.3, Opus 4.7 79.3, Opus 4.8 77.3
FORTE†: LongCat-2.0

Foundational

IFEval: LongCat-2.0 90.0, Gemini 3.1 Pro
96.1, GPT-5.5 95.0, Opus 4.6 92.2, Opus 4.7 88.7, Opus 4.8 86.0 - Writing Bench: LongCat-2.0 83.8, Gemini 3.1 Pro 83.7, GPT-5.5 84.7, Opus 4.7 85.3, Opus 4.8 85.2
IMO-AnswerBench: LongCat-2.0 81.8, Gemini 3.1 Pro
90.0, GPT-5.5 79.5, Opus 4.6 75.3*, Opus 4.7 81.8, Opus 4.8 75.3 - GPQA-diamond: LongCat-2.0 88.9, Gemini 3.1 Pro 94.3*, GPT-5.5 93.6*, Opus 4.6 91.3*, Opus 4.7 94.2*, Opus 4.8 92.4
IFEval: LongCat-2.0 90.0, Gemini 3.1 Pro

평가 조건

Terminal-Bench 2.1: Claude Code로 평가, 샌드박스 인스턴스당 8c16g, 추론 파라미터 temperature=1.0/top_k=-1/top_p=0.95, 에이전트 타임아웃 6시간
SWE-Bench 시리즈: Claude Code로 평가, 샌드박스 인스턴스당 4c8g, temperature=1.0/top_k=-1/top_p=1, 문제 있는 태스크는 수정
FORTE: 15개 기업 직군의 일상 오피스 생산성으로 AI 에이전트를 평가하는 general agent 벤치마크로 OpenClaw/Hermes/Claude Code 프레임워크 지원, 모든 태스크 45분 타임아웃, 2 CPU/4GB RAM, 단일 라운드 API 호출 타임아웃 500s, 최대 10회 재시도(† 표시)
RW-Search: 검색 에이전트용 자체 객관 벤치마크로 기본 Search·Browse 도구만 구성한 bare-model 평가, 컨텍스트 관리 전략 미적용
Foundational: IMO-AnswerBench 등 수학 추론은 temperature=1.0/top_k=-1/top_p=0.95, 그 외는 temperature=0.7/top_k=-1/top_p=0.95

Insights

LongCat-2.0 공개 - Nvidia 없이 학습한 1.6조 파라미터 오픈소스 모델

요약

핵심 포인트