llama.cpp헤드라인2026. 06. 02. 00:01

model: EXAONE 4.5 구현 추가 ([#21733](https://github.com/ggml-org/llama.cpp/pull/217

요약

llama.cpp 프로젝트에 EXAONE 4.5 모델 구현이 추가되었습니다. GQA 지원, 비전 마커 처리, Qwen2.5-VL 스타일의 인코딩 경로 라우팅 등 멀티모달 기능을 위한 기술적 업데이트가 포함되었습니다.

핵심 포인트

EXAONE 4.5 모델의 llama.cpp 지원 추가
GQA(Grouped Query Attention) 및 비전 마커 구현
Qwen2.5-VL 스타일의 인코딩 경로 라우팅 적용
GGUF 모델 로딩을 위한 텐서 및 변환 로직 최적화

model: EXAONE 4.5 구현 추가 (#21733)

EXAONE 4.5 추가 및 MMproj를 위한 GQA (Grouped Query Attention) 추가
mtmd: EXAONE 4.5 비전 마커 (vision markers) 및 프로젝터 경로 (projector path)

EXAONE 4.5를 Qwen2.5-VL 스타일의 인코딩 경로 (윈도우 어텐션 패턴 (window attention pattern), 선택적 mmproj 입력 정규화 (optional mmproj input norm))를 통해 라우팅합니다. exaone4_5 프로젝터 가중치(projector weights)를 업데이트하고 mmproj 내보내기를 위한 convert_hf_to_gguf를 변환합니다.

mtmd: EXAONE4 nextn 텐서(tensors)를 올바르게 로드

NextN/MTP 슬롯에 대해 EXAONE4 텐서 등록을 EXAONE_MOE와 정렬하고, 중복된 rope_freqs에 대한 skip-flag 전파를 방지하여 EXAONE 4.5 GGUF 모델 로딩이 성공하도록 합니다.

사소한 수정 (Minor fixes)
PR 피드백 반영
PR 피드백 반영
병합 후 EXAONE 수정
EXAONE 4.5 변환 수정
PR 피드백 반영
EXAONE 4.5 변환 리팩토링 (Refactor)
PR 피드백 반영
의도하지 않은 삭제 수정
사소한 수정 (Minor fix)

Co-authored-by: LG-AI-EXAONE exaonemodels@lgresearch.ai

macOS/iOS:

macOS Apple Silicon (arm64)
macOS Apple Silicon (arm64, KleidiAI 활성화) 비활성화됨 (DISABLED)
macOS Intel (x64)
iOS XCFramework

Linux:

Linux:

Android:

Android arm64 (CPU)

Windows:

openEuler:

DISABLED
openEuler x86 (310p)
openEuler x86 (910b, ACL Graph)
openEuler aarch64 (310p)
openEuler aarch64 (910b, ACL Graph)

UI:

AI 자동 생성 콘텐츠

원문 바로가기

model: EXAONE 4.5 구현 추가 ([#21733](https://github.com/ggml-org/llama.cpp/pull/217

요약

핵심 포인트

댓글