
Meituan, 국산 칩으로 학습된 1.6T 파라미터 LongCat-2.0 오픈 소스 공개
요약
Meituan이 1.6조 개의 파라미터를 가진 대규모 언어 모델 LongCat-2.0을 오픈 소스로 공개했습니다. 이 모델은 50,000개의 국산 ASIC 클러스터를 활용하여 사전 학습과 추론 전 과정을 국산 칩으로 완료한 것이 특징입니다.
핵심 포인트
- 1.6조 파라미터 규모 및 100만 토큰 컨텍스트 윈도우 지원
- 50,000개의 국산 ASIC을 사용한 전 과정(학습 및 추론) 국산화 성공 주장
- DeepSeek V4-pro와 유사한 파라미터 규모를 보유
- 긴 문서 처리 및 기업용 RAG 활용에 최적화된 설계
Meituan은 50,000개의 국산 ASIC으로 학습된 1.6T 파라미터 LongCat-2.0을 오픈 소스로 공개하며, 중국 최초의 전 과정 국산 칩 기반 조 단위 파라미터 모델이라고 주장했습니다.
Meituan은 전적으로 국산 칩에서 학습된 1.6조(trillion) 파라미터 규모의 LLM(대규모 언어 모델)인 LongCat-2.0을 오픈 소스로 공개했습니다. 이 모델은 50,000개의 카드 ASIC 클러스터에서 사전 학습(pre-training)과 추론(inference)을 모두 완료한 중국 최초의 조 단위 파라미터 AI라고 주장합니다.
주요 사실
- LongCat-2.0의 파라미터 수는 1.6조 개입니다.
- 100만 토큰의 컨텍스트 윈도우(context window)를 지원합니다.
- 학습에 50,000개의 카드 국산 ASIC 클러스터가 사용되었습니다.
- DeepSeek V4-pro 또한 1.6조 개의 파라미터를 보유하고 있습니다.
- Meituan에 의해 화요일에 오픈 소스로 공개되었습니다.
음식 배달 거물인 Meituan은 화요일, 1.6조 개의 파라미터와 100만 토큰의 컨텍스트 윈도우를 자랑하는 대규모 언어 모델(LLM)인 LongCat-2.0을 오픈 소스로 공개했습니다 [SCMP에 따르면]. 베이징에 본사를 둔 이 기업은 이 모델이 AI ASIC 슈퍼포드(superpods)로 구축된 50,000개 카드 규모의 국산 컴퓨팅 파워 클러스터에서 전 과정 학습과 추론을 완료한 업계 최초의 조 단위 파라미터 모델이라고 주장했습니다.
추론 그 이상
DeepSeek의 V4-pro(1.6조 파라미터, 2026년 4월 출시)가 추론에만 국산 칩을 사용했던 것과 달리, Meituan은 LongCat-2.0이 사전 학습(pre-training)과 추론(inference) 모두에 국산 하드웨어를 사용했다고 밝혔습니다. 사전 학습은 기본 패턴을 학습하기 위해 방대한 데이터셋을 소화해야 하므로 훨씬 더 많은 계산 집약적인 작업입니다. 이는 중국이 국산 칩의 활용 범위를 추론 워크로드 너머로 확장하려는 시도에 있어 중요한 진전입니다.
하드웨어 문제
Meituan은 구체적인 ASIC 벤더나 칩 성능 지표를 공개하지 않았습니다. 50,000개의 카드로 구성된 클러스터라는 주장은 Nvidia가 아닌 하드웨어에서 대규모 규모의 상호 연결 효율성 (interconnect efficiency) 및 학습 안정성에 대한 의문을 제기합니다. 이와 대조적으로 DeepSeek의 V4-pro는 추론 (inference) — 상대적으로 요구 사항이 적은 작업 — 에만 국산 칩을 사용했으며, 사전 학습 (pre-training) 단계에서는 Nvidia 또는 기타 외국산 GPU에 의존했을 가능성이 높습니다. 다만 DeepSeek 측에서 이를 확인해주지는 않았습니다.
오픈 소스 및 컨텍스트 (Open-Source and Context)
LongCat-2.0은 Meituan의 이전 LongCat-1.0 출시를 이어 오픈 소스로 공개되었습니다. 100만 토큰의 컨텍스트 윈도우 (context window)는 DeepSeek V4 (2026년 6월 FlashMemory 최적화를 통해 500K 컨텍스트를 달성함)와 같은 프런티어 모델 (frontier models) 수준이며, LongCat을 긴 문서 및 기업용 RAG (Retrieval-Augmented Generation) 사용 사례에 적합한 위치에 올려놓았습니다. Meituan은 MMLU, HumanEval 또는 SWE-Bench와 같은 표준 평가에 대한 벤치마크 결과를 발표하지 않았습니다.
주목해야 할 점
MMLU, HumanEval, SWE-Bench와 같은 표준 평가에 대한 Meituan의 벤치마크 결과를 주목하십시오. 또한 DeepSeek가 차기 모델(잠재적으로 V5)에서 완전한 국산 칩 기반의 사전 학습 (pre-training) 주장을 통해 대응할지 여부도 추적해야 합니다.
출처: scmp.com
원문 게시: gentic.news
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기