cohere2-MoE 아키텍처 지원 추가 ([#24260](https://github.com/ggml-org/llama.cpp/pull/2426
요약
llama.cpp 프로젝트에서 cohere2-MoE 아키텍처 지원을 추가하는 업데이트가 진행되었습니다. MoE 구조를 위한 텐서 수정, 토크나이저 업데이트, 전문가 결합 방식 변경 등 다양한 기술적 최적화가 포함되었습니다.
핵심 포인트
- cohere2-MoE 아키텍처 공식 지원 추가
- 공유 전문가 결합 평균 방식 변경 (routed+shared)*0.5
- 토크나이저 및 모델 세이버 지원 목록 업데이트
- MTP 실패 수정 및 iSWA 사용 적용
cohere2-MoE 아키텍처 지원 추가 (#24260)
-
cohere2-MoE 아키텍처 (arch) 지원 추가
-
불필요한 gating_func 체크 제거
-
prefix_dense_intermediate_size를 우선하도록 ffn 조회 (lookup) 변경
-
아키텍처 (arch) 이름을 cohere2moe로 변경
-
불필요한 lmhead 체크 및 채팅 템플릿 (chat template) 변경 사항 제거
-
텐서 수정 (modify tensors)에서 lm_head.weight 체크 제거, 출력 텐서 (output tensor) 로드는 불필요하며, token_embd.weight로 폴백 (fallback)
-
공유 전문가 (shared expert) 결합 평균을 위해 (routed+shared)*0.5로 변경
-
sliding_window_pattern 이슈 및 패턴 수정
-
transformers 충돌 'first_k_dense_replace' 에러 수정
-
주석 제거
-
cohere2-moe를 토크나이저 (tokenizer) 유형에서 제거하고 tiny_aya로 유지. North-Mini-Code-1.0으로 이름 변경.
-
MTP 실패 수정, iSWA를 사용하도록 변경
-
남은 할 일 (todos) 수정: cohere2moe 이름 변경, get_key_or_arr를 사용하도록 swa 파싱 변경, 불필요한 get_arr 사용 제거
-
메타데이터 (metadata) 사용 강제
Co-authored-by: Sigbjørn Skjæret sigbjorn.skjaeret@scala.com
- Cohere2 체크포인트 (checkpoint) 주석 제거
Co-authored-by: Sigbjørn Skjæret sigbjorn.skjaeret@scala.com
- MTP 주석 제거
Co-authored-by: Sigbjørn Skjæret sigbjorn.skjaeret@scala.com
-
cohere2moe 토크나이저 (tokenizer) 해시 재생성
-
Llama 모델 세이버 (Model Saver) 지원 목록에 cohere2moe 추가
-
zerobios 텐서 확인 및 Command에서 LayerNorm을 사용하도록 지원 추가
-
base.py에서 expert_selection_fn을 command.py 대신 sigmoid로 매핑
-
foundnorm/foundnormrms에 불리언 (bools) 사용
Co-authored-by: Sigbjørn Skjæret sigbjorn.skjaeret@scala.com
Co-authored-by: Sigbjørn Skjæret sigbjorn.skjaeret@scala.com
macOS/iOS:
macOS/iOS:
- macOS Apple Silicon (arm64)
- macOS Apple Silicon (arm64, KleidiAI enabled) DISABLED
- macOS Intel (x64)
- iOS XCFramework
Linux:
- Ubuntu x64 (CPU)
- Ubuntu arm64 (CPU)
- Ubuntu s390x (CPU)
- Ubuntu x64 (Vulkan)
- Ubuntu arm64 (Vulkan)
- Ubuntu x64 (ROCm 7.2)
- Ubuntu x64 (OpenVINO)
- Ubuntu x64 (SYCL FP32)
- Ubuntu x64 (SYCL FP16)
Android:
Windows:
Windows:
- Windows x64 (CPU)
- Windows arm64 (CPU)
- Windows x64 (CUDA 12) - CUDA 12.4 DLLs
- Windows x64 (CUDA 13) - CUDA 13.3 DLLs
- Windows x64 (Vulkan)
- Windows x64 (SYCL)
- Windows x64 (HIP)
openEuler:
- DISABLED
- openEuler x86 (310p)
- openEuler x86 (910b, ACL Graph)
- openEuler aarch64 (310p)
- openEuler aarch64 (910b, ACL Graph)
UI:
AI 자동 생성 콘텐츠
본 콘텐츠는 llama.cpp Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기