Huawei 주도 팀, DeepSeek의 1.6조 파라미터 모델을 Ascend 910C 칩으로 사후 학습(Post-training)했다고 주장

요약

Huawei 주도 연구팀이 1,000개 이상의 Ascend 910C 칩 클러스터를 사용하여 DeepSeek V4-Pro 모델의 전체 파라미터 사후 학습을 완료했습니다. 이는 중국산 AI 가속기가 단순 추론을 넘어 학습급 워크로드를 처리할 수 있음을 보여주는 중요한 사례입니다.

핵심 포인트

Ascend 910C 칩을 활용한 1.6조 파라미터 모델 사후 학습 성공
중국산 실리콘의 학습급 워크로드 처리 능력 입증
전체 파라미터 업데이트 방식의 사후 학습 수행
Nvidia 하드웨어 의존도 탈피를 위한 기술적 진전

__South China Morning Post__의 보도에 따르면, Huawei Technologies를 포함한 연구 그룹이 1.6조 파라미터(parameter) 규모의 DeepSeek V4-Pro 모델에 대한 전체 파라미터 사후 학습(Full-parameter post-training)을 완료했다고 밝혔습니다. 선전(Shenzhen) 시 정부에 따르면, 해당 그룹은 최소 1,000개의 Huawei Ascend 910C 칩 클러스터를 사용했습니다.

이러한 폭로는 중국 가속기가 이제 자국 실리콘(domestic silicon)으로 학습급 워크로드(training-class workload)를 처리할 수 있다는 증거입니다. 학습 단계는 중국 기업들이 미국의 수출 통제 하에서 Nvidia 하드웨어로부터 가장 벗어나기 어려워했던 AI 파이프라인(AI pipeline)의 부분입니다. Huawei는 Shenzhen Loop Area Institute, Harbin Institute of Technology의 Shenzhen 캠퍼스, 그리고 Shenzhen Research Institute of Big Data와 함께 이 작업을 수행했습니다.

__Ascend 910C__는 Huawei의 현재 플래그십 AI 가속기로, 이전의 DeepSeek 테스트에서 Nvidia H100 추론(inference) 성능의 약 60%를 구현했던 듀얼 다이(dual-die) 부품입니다. 중국산 칩들은 완성된 모델이 프롬프트(prompt)에 답하는 추론 단계에서는 경쟁력이 있었으나, 대규모 데이터셋을 통해 모델의 가중치(weights)를 재계산하는 학습(training) 단계에서는 취약했습니다. 해당 팀은 전체 파라미터 사후 학습(full-parameter post-training)을 수행했다고 밝혔는데, 이는 상단에 얇은 어댑터 레이어(adapter layer)를 추가하는 방식이 아니라 모든 가중치를 업데이트했음을 의미합니다.

사후 학습(Post-training)은 본질적으로 훨씬 더 큰 규모의 사전 학습(pre-training) 단계 다음에 이어지는 "튜닝(tuning)" 단계입니다. 사전 학습(Pre-training)은 방대한 텍스트 코퍼스(text corpora)를 처리함으로써 모델의 핵심 능력을 구축하며, DeepSeek의 문서에 따르면 V4-Pro의 사전 학습 코퍼스는 32조 개 이상의 토큰(tokens)에 달합니다.

그 후 사후 학습(Post-training)은 지시 이행(instruction-following), 안전 정렬(safety alignment), 그리고 작업 특화 데이터(task-specific data)를 통해 동작을 형성합니다. Ascend 실리콘에서 이를 완료한 것은 해당 플랫폼의 진정한 성과이지만, 이것이 칩이 프런티어 모델(frontier model)을 처음부터 사전 학습(pre-train)할 수 있음을 입증하는 것은 아닙니다. 사전 학습은 훨씬 더 무겁고 비용이 많이 드는 작업입니다.

지난 8월, DeepSeek가 Huawei 엔지니어들이 현장에 있음에도 불구하고 Ascend 칩에서 R2 모델을 위한 단 한 번의 성공적인 학습 실행(training run)조차 완료할 수 없었다는 보고가 있었습니다. 그 원인으로는 불안정한 성능, 느린 칩 간 상호 연결(chip-to-chip interconnects), 그리고 Nvidia의 CUDA를 대체하기 위한 Huawei의 CANN 소프트웨어 스택의 격차가 지목되었습니다. 이 회사는 학습을 위해 Nvidia GPU로 회귀하였고, Ascend는 추론(inference) 용도로 남겨두었습니다. 지난 4월 출시된 __DeepSeek-V4-Pro__는 처음부터 Ascend를 기반으로 구축된 첫 번째 DeepSeek 모델이었습니다.

Shenzhen에서 나온 이 주장에 대해서는, 벤치마크가 전혀 없으며, 학습 실행에 얼마나 오랜 시간이 걸렸는지, Nvidia 하드웨어에서 수행한 동일한 작업과 비교했을 때 어떠했는지, 또는 1,000개의 칩 클러스터가 얼마나 효율적으로 사용되었는지에 대한 수치도 제공하지 않습니다. 이는 궁극적으로 아무런 근거 없이 중국 정부로부터 나온 일련의 의심스러운 주장들에 또 하나가 추가된 것에 불과합니다. DeepSeek 자체는 이에 대해 언급하지 않았습니다.

Tom's Hardware의 최고의 뉴스 및 심층 리뷰를 귀하의 편지함으로 직접 받아보세요.

최신 뉴스, 분석 및 리뷰를 피드에서 받으려면 Google 뉴스에서 Tom's Hardware를 팔로우하거나, 우리를 선호하는 소스로 추가하세요.

Luke James는 프리랜서 작가이자 저널리스트입니다. 그의 배경은 법률 분야이지만, 기술의 모든 것, 특히 하드웨어와 미세 전자 공학(microelectronics), 그리고 모든 규제 관련 사항에 개인적인 관심을 가지고 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Huawei 주도 팀, DeepSeek의 1.6조 파라미터 모델을 Ascend 910C 칩으로 사후 학습(Post-training)했다고 주장

요약

핵심 포인트

댓글