LongCat-2.0 공개 - Nvidia 없이 학습한 1.6조 파라미터 오픈소스 모델
요약
1.6조 파라미터 규모의 MoE 오픈소스 모델인 LongCat-2.0이 공개되었습니다. Nvidia GPU가 아닌 AI ASIC 슈퍼팟을 활용해 학습에 성공했으며, LSA 기술을 통해 1M 컨텍스트 처리 성능을 강화했습니다.
핵심 포인트
- 1.6T 파라미터 규모의 대규모 MoE 모델 및 35조 토큰 사전학습 완료
- Nvidia GPU 없이 AI ASIC 기반 인프라에서 프런티어급 학습 입증
- LSA(LongCat Sparse Attention) 도입으로 1M 컨텍스트 효율적 처리
- Claude Code, Hermes 등 주요 에이전트 프레임워크와 긴밀한 통합
- 총
1.6조(1.6T) 파라미터와 토큰당 약 480억 개 활성화 규모의 대규모 MoE 언어 모델로, 오픈소싱과 함께 여러 아키텍처 개선 동반 - 전체 학습과 대규모 배포를 전부
AI ASIC 슈퍼팟에서 수행, 35조 개 이상 토큰에 걸친 사전학습을 롤백·복구 불가능한 손실 급증 없이 완료 LongCat Sparse Attention(LSA)도입과 수천억 토큰 규모의1M 컨텍스트데이터 학습으로 장기 과제 성능 강화- Claude Code, OpenClaw, Hermes 등 주류 하네스와 긴밀히 통합되어 코드 이해, 저장소 단위 수정, 자동 작업 실행, 에이전트 워크플로우에서 강한 성능 제공 - Nvidia GPU 생태계 대비 미성숙한 대체 하드웨어에서
프런티어급 학습이 가능함을 입증, 인프라·후처리 학습 전반의 최적화가 실제 과제 수행 능력으로 이어짐
모델 개요
1.6조 파라미터규모의 대규모 MoE 언어 모델로, 토큰당 약 480억 파라미터만 활성화하며 이전 LongCat 모델 대비 큰 진전 이룸- 전체 학습 실행과 대규모 배포 모두
AI ASIC 슈퍼팟기반으로 구축- 사전학습은 수백만 accelerator-day 규모로 35조 개 이상 토큰에 걸쳐 진행, 롤백이나 복구 불가능한 loss spike 없이 완료
-
대체 하드웨어 플랫폼에서 프런티어급 학습을 수행할 역량 입증
-
장기 과제 강화를 위해
LongCat Sparse Attention도입, 수천억 토큰의 1M 컨텍스트 데이터로 학습 - Claude Code, OpenClaw, Hermes 등 주류 하네스와 깊게 통합, 코드 이해·저장소 단위 편집·자동 작업 실행·에이전트 워크플로우 전반에서 안정적이고 효율적인 협업 경험 제공
아키텍처
LongCat-Flash기반 위에 파라미터 효율성을 더 밀어붙이고 긴 컨텍스트 학습·추론 속도 개선- 어텐션에는
**LongCat Sparse Attention(LSA)**도입- DeepSeek Sparse Attention의 진화형으로, 더 가벼운 indexer로 모델 품질 손상 없이 긴 컨텍스트 처리 가속
N-gram Embedding모듈 추가- N-gram 토큰 조합을 통해 임베딩 공간을 약 100배 확장, 더 풍부한 로컬 컨텍스트 포착 및 토큰 단위 표현 강화
LongCat Sparse Attention
-
에이전트형 애플리케이션 확산으로 LLM은 효율적 긴 입력 처리 방향으로 이동 중
-
DSA는 세밀한 sparse attention으로 대응하나, 프로파일링 결과 DSA의
Lightning Indexer가 출력 불연속성과 2차(quadratic) 스코어링 비용 때문에 핵심 병목으로 남음 -
DSA는 세밀한 sparse attention으로 대응하나, 프로파일링 결과 DSA의
-
LSA는 indexer에 서로 독립적인(orthogonal) 세 가지 효율 개선 도입
Streaming-aware Indexing(SI): 하드웨어 정렬 연속 접근과 동적 랜덤 선택을 결합하도록 토큰 선택 예산 재구성, 파편화된 메모리 접근을 예측 가능한 순차 읽기로 전환해 coalesced HBM 접근과 높은 유효 대역폭 달성Cross-Layer Indexing(CLI): 인접 레이어 간 attention saliency의 경험적 안정성을 활용해 인덱싱 비용 분산, 추론 시 단일 인덱싱 패스가 여러 연속 레이어에 사용되며 학습 중 cross-layer distillation으로 가능Hierarchical Indexing(HI): coarse-to-fine 2단계 스코어링으로, 먼저 블록 단위 근사 스코어링으로 개략 recall 후 후보 내에서 세밀한 토큰 선택, LongCat-2.0에서는 학습 없이(training-free) 적용되며 선택된 초장기 컨텍스트 과제에 활성화 -
세 구성요소는 설계상 독립적이라 각각 개별 활성화·비활성화 가능
-
세 전략을 3단계
**Multi-Token Prediction(MTP)**모듈로 확장해 speculative decoding 가속- Cross-Layer Indexing은 draft·target 모델에서 다르게 적용, target 모델은 연속 2개 레이어가 단일 인덱싱 패스 공유 -
다단계 MTP에서는 3개 draft step이 하나의 패스 공유, step 2·3은 step 1이 생성한 index set 재사용
N-gram Embedding
LongCat-Flash-Lite에서 계승, MoE와 직교하는 sparse 차원으로 파라미터를 확장해 파라미터 활용 효율 개선- n-gram 크기는 5로 설정, 모델에
135B N-gram Embedding 파라미터포함
-
n-gram 크기는 5로 설정, 모델에
-
다음 스케일링 원칙 준수
MoE의 sparsity가 sweet spot을 넘어섬: N-gram Embedding 없이도 sparsity가 약 97%에 도달해 expert를 135B 늘려도 성능 이득은 미미, 동일 파라미터 규모의 N-gram Embedding이 표준 expert보다 훨씬 큰 이득 제공N-gram Embedding 비중은 최적 범위 내로 제한: 스케일링 실험 결과 n-gram 임베딩 파라미터가 전체 예산의 과도한 비중(50% 초과)을 차지하면 expert 확장 대비 이점 감소, LongCat-2.0에서는 이 비중을 10% 미만으로 엄격 유지 -
추론 시 expert에서 N-gram Embedding으로 파라미터를 옮기면 대규모 배치 디코딩의 메모리 I/O 감소, 생성 가속
AI ASIC 슈퍼팟 기반 확장형 인프라
- 학습·배포는 수만 개 AI ASIC 슈퍼팟의 대규모 클러스터 기반
- 성숙한 Nvidia GPU 생태계 대비 지원 소프트웨어 커뮤니티는 아직 덜 발전, 안정적·안전·확장 가능한 인프라 구축에 상당한 노력 투입
학습(Training)
5만 개 이상 AI ASIC에서 사전학습, 모델·클러스터 규모로 인한 시스템 수준 난제 발생- 체계적 최적화로 naive 구현 대비
학습 처리량 35% 이상 개선하며 신뢰성도 함께 강화
- 체계적 최적화로 naive 구현 대비
결정성 & 신뢰성(Determinism & Reliability)
-
재현성 확보를 위해 통신·연산 경로 전반에 결정성 강제, Embedding·FA·LSA·MoE 레이어를 아우르는 자체 결정적 연산자·모듈 제공
-
수치 신뢰성을 위해 기초 연산자 재작업, 예: 모든 reduction 계열 연산자는 binary-tree 분할 누산 전략으로 부동소수점 오차 누적 감소
-
실제 LLM 워크로드에서 accelerator 연산 정밀도를 엄격한 고정밀 baseline과 대조 검증, 산술적 무결성과 프로덕션 준비 상태 확인
-
일부 연산 집약 연산자에 bit-flip 감지 도입해 하드웨어 비트 플립 이상 즉시 포착
-
장애 복구는 end-to-end 모니터링으로 장애 식별·트래픽 전환·복구를 수동 개입 없이 수행, 결함 링크 격리 시 학습에 체감 영향 없음, 복구된 링크는 스트레스 테스트 통과 후 재합류
대규모 학습(Training at Scale)
- accelerator의 장치당 메모리가 H800(80GB)보다 크게 적어 메모리가 규모 확장의 주요 병목, 병렬화 전략과 메모리 관리 두 축으로 대응
6D 병렬화: 표준 TP/CP/EP/DP/PP를 넘어 N-gram Embeddings를 병렬화·가속하는 EMBP 도입슈퍼팟: 각 최대 48대 머신의 물리 슈퍼팟에서 학습, 내부는 all-to-all 고대역폭, 팟 간은 RoCE fabric으로 연결해 대역폭 요구가 큰 병렬화(TP/CP/EP)를 위한 고대역폭 통신 도메인을 수백 개 장치로 확장- 동일 규모·환경에서 사전학습 처리량 약 30% 추가 이득 제공 - 논리 슈퍼팟은 affinity 스케줄링 단위로, 통신 지역성과 스케줄 가능성 간 균형 조정
메모리 최적화: ZeRO-1, 선택적 recomputation, allocator 수준의 OOM-aware offloading, padding 토큰을 zero-expert로 라우팅 적용Muon optimizer: accelerator에서 대규모로 배치, TP 병렬화·DP state 중복 제거·효율적 대칭 행렬 곱 커널 전반에 표적 최적화 적용
긴 컨텍스트 학습(Long Context Training)
- 대규모 긴 컨텍스트 학습 난제를 세 각도에서 대응
LSA 연산자 & forward 최적화: dense-warmup·sparse 단계 및 KL-loss 연산자용 자체 결정적 어텐션 연산자 구현, forward-only dense-warmup 전략으로 KL loss와 gradient를 단일 forward 패스에서 계산해 효율 개선1M 컨텍스트 스케일링: CP를 512 이상으로 확장 가능한 all-gather 기반 CP 병렬화로 native 1M 길이 학습 실현, get-batch 단계에서 데이터 재셔플·균형 CP 전략으로 워크로드 균형 유지연산-통신 오버랩: 예로 shortcut-layer 아키텍처는 MoE 통신을 병렬 분기 연산과 오버랩, LSA top-k 인덱스 연산은 KV all-gather와 오버랩해 동기화 오버헤드 감소
추론(Inference)
1M 토큰 컨텍스트에서 1.6T 파라미터 모델 서빙은 HBM 용량·HBM I/O 대역폭·노드 간 인터커넥트 대역폭의 엄격한 제약하에 큰 난제, 모델·장치·배포 수준의 최적화 스택으로 대응
모델 특화 최적화
Attention: 초장기 컨텍스트의 I/O·연산·메모리 병목을 세 관점에서 최적화- (1) prefill·decode 단계 모두에서 absorb 연산 모드 채택
- (2) indexer를 MLA prolog와 동시 스트림으로 파이프라이닝해 indexer 오버헤드 은닉
- (3)
**KV-cache parallelism(KVP)**로 KV-cache를 장치 간 샤딩
ScMoE: LongCat-Flash의 연산-통신 오버랩을 기반으로 스케줄을 더 발전, accelerator의 명시적 per-core 제어를 활용해 dense·MoE 분기를 완전 병렬 실행하며 단순 오버랩 수준을 넘어섬
Accelerator 지향 최적화
Super Kernel: graph 모드에서 커널 간 간극은 제거되나 커널 내부 launch 오버헤드가 남아, super kernel로 이 intra-kernel launch 비용 감소Weight Prefetch: 장치는 HBM 대역폭이 제한적이나 상대적으로 큰 L2 캐시 보유, 이 큰 L2 캐시로 가중치를 prefetch해 앞선 연산자 계산 중 I/O 지연 은닉Scale Up and Scale Out: P·D 노드 간 KV-cache 전송은 accelerator 내장 200Gbps 네트워크 어댑터 활용, KV-cache는 레이어 단위 전송, KV-cache store는 host RDMA 네트워크 어댑터로 구성, TP/SP/KVP는 scale-up 인터커넥션 도메인 내에서 수행
배포 & 서빙
최적 병렬화: TTFT와 TPOT 균형을 위해 prefill–decode(PD) 분리 배포 채택Prefill 노드: 긴 시퀀스 처리는 노드 간 통신 대역폭에 묶이고 MoE dispatch/combine 트래픽이 런타임 지배, multi-node chunked pipeline parallelism(CPP)으로 expert-parallel(EP) 도메인 축소, 각 파이프라인 스테이지 내 Attention Sequence Parallelism(SP)으로 긴 시퀀스 연산 압박 완화Decode 노드: 주요 제약은 장치 메모리와 KV-cache I/O, KVP로 KV-cache 샤딩해 장치당 메모리 풋프린트 감소, 큰 EP 차수(EP128)로 장치당 가중치 메모리와 expert I/O 동시 절감- 두 단계 모두에서 병렬화 방식(CPP/SP·KVP)이 constrained decoding·multi-step scheduling·MTP 같은 추론 시 최적화와 깔끔하게 조합되도록 설계
Expert-Parallel Load Balancing(EPLB): decode 노드의 큰 EP 차수로 expert 간 부하 불균형 가능성 증가, EPLB로 대응하며 서빙 오버헤드 최소화를 위해 통계 수집·배치 연산을 forward critical path 밖에서 비동기 수행
다수 교사로부터의 학습(Learning from Multiple Teachers)
- 전체 성능 향상과 역량 경계 확장을 위해 후처리 학습 파이프라인에 전문 expert-group 설계 도입, 세 범주로 구성
Agent Experts: 복잡한 실제 시나리오의 자율 작업 실행 개선, 코드·업무·검색 등 세밀한 수직 도메인에서 SOTA급 성능 달성- end-to-end 작업 성공률뿐 아니라 에이전트 견고성을 뒷받침하는 원자적 역량 최적화, 정밀한 tool 호출·다중 턴 API 상호작용의 신뢰성 있는 파라미터 파싱·무한 루프와 반복 호출을 완화하는 자기 교정 메커니즘 포함
Reasoning Experts: 논리 추론 깊이 확장 및 문제 난이도 기반 적응적 연산 활성화, 수학·STEM 문제 해결·multi-hop 추론에서 강한 성능 제공해 복잡한 분석 시나리오 처리 능력 향상Interaction Experts: 인간 정렬과 사용자 경험 최적화에 집중, 다양한 애플리케이션에서 세밀한 지시 따르기 개선, 고급 정렬 기법으로 사실 환각 억제, 유용성 훼손 없이 경계가 명확한 안전 메커니즘 확립- 최종적으로
MOPD 아키텍처로 세 expert 그룹의 가장 강한 역량 통합, 강한 에이전트 실행·깊은 추론·고품질 상호작용을 결합해 복잡한 사용자 요구를 정확히 이해하고 어려운 실제 과제를 신뢰성 있게 완수
모델 역량 시연
긴 컨텍스트 추론과 전용 후처리 학습으로 실제 과제 수행에 강점
Codebase Migration
- 전체 코드베이스와 마이그레이션 문서를 함께 읽고 아키텍처를 매핑, 플러그인 전체를 새 SDK로 재작성
- 기존 기능 전부 보존, 잠재 버그 포착, 첫 빌드에서 clean 컴파일
평가(Evaluations)
코드·일반 에이전트·기초 역량 전반에서 주요 상용 모델과 비교,
*
표시 외 모든 점수는 통합 하네스로 자체 측정(0–100 정규화) -
Code Agent
-
Terminal-Bench 2.1: LongCat-2.0
70.8, Gemini 3.1 Pro 70.7*, GPT-5.5 73.8*, Claude Opus 4.7 71.7*, Opus 4.8 78.9* - SWE-bench Pro: LongCat-2.0
59.5, Gemini 3.1 Pro 54.2*, GPT-5.5 58.6*, Opus 4.6 57.3*, Opus 4.7 64.3*, Opus 4.8 69.2* - SWE-bench Multilingual: LongCat-2.0
77.3, Gemini 3.1 Pro 76.9*, Opus 4.6 77.8*, Opus 4.7 80.5*, Opus 4.8 84.8* -
Terminal-Bench 2.1: LongCat-2.0
General Agent
-
FORTE†: LongCat-2.0
73.2, Gemini 3.1 Pro 70.3, GPT-5.5 77.8, Opus 4.6 73.2, Opus 4.7 77.6, Opus 4.8 77.2 - BrowseComp: LongCat-2.0
79.9, Gemini 3.1 Pro 85.9*, GPT-5.5 84.4*, Opus 4.6 84.0*, Opus 4.7 79.3*, Opus 4.8 84.3* - RWSearch: LongCat-2.0
78.8, Gemini 3.1 Pro 76.3, GPT-5.5 85.3, Opus 4.6 81.3, Opus 4.7 79.3, Opus 4.8 77.3 -
FORTE†: LongCat-2.0
Foundational
-
IFEval: LongCat-2.0 90.0, Gemini 3.1 Pro
96.1, GPT-5.5 95.0, Opus 4.6 92.2, Opus 4.7 88.7, Opus 4.8 86.0 - Writing Bench: LongCat-2.0 83.8, Gemini 3.1 Pro 83.7, GPT-5.5 84.7, Opus 4.7 85.3, Opus 4.8 85.2 -
IMO-AnswerBench: LongCat-2.0 81.8, Gemini 3.1 Pro
90.0, GPT-5.5 79.5, Opus 4.6 75.3*, Opus 4.7 81.8, Opus 4.8 75.3 - GPQA-diamond: LongCat-2.0 88.9, Gemini 3.1 Pro 94.3*, GPT-5.5 93.6*, Opus 4.6 91.3*, Opus 4.7 94.2*, Opus 4.8 92.4 -
IFEval: LongCat-2.0 90.0, Gemini 3.1 Pro
평가 조건
- Terminal-Bench 2.1: Claude Code로 평가, 샌드박스 인스턴스당 8c16g, 추론 파라미터 temperature=1.0/top_k=-1/top_p=0.95, 에이전트 타임아웃 6시간
- SWE-Bench 시리즈: Claude Code로 평가, 샌드박스 인스턴스당 4c8g, temperature=1.0/top_k=-1/top_p=1, 문제 있는 태스크는 수정
- FORTE: 15개 기업 직군의 일상 오피스 생산성으로 AI 에이전트를 평가하는 general agent 벤치마크로 OpenClaw/Hermes/Claude Code 프레임워크 지원, 모든 태스크 45분 타임아웃, 2 CPU/4GB RAM, 단일 라운드 API 호출 타임아웃 500s, 최대 10회 재시도(† 표시)
- RW-Search: 검색 에이전트용 자체 객관 벤치마크로 기본 Search·Browse 도구만 구성한 bare-model 평가, 컨텍스트 관리 전략 미적용
- Foundational: IMO-AnswerBench 등 수학 추론은 temperature=1.0/top_k=-1/top_p=0.95, 그 외는 temperature=0.7/top_k=-1/top_p=0.95
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기