- llama-server 후속 조치 [#16031](https://github.com/ollama/ollama/pull/16031)에 대한 기
요약
Ollama의 llama-server 관련 버그 수정 및 기능 개선 사항을 다룹니다. Windows 멀티 GPU 지원을 위한 ROCm 플래그 추가, 임베딩 API 수정, MLX 로딩 로직 개선 등이 포함되었습니다.
핵심 포인트
- Windows 환경의 멀티 GPU 지원을 위한 ROCm 빌드 플래그 복구
- 임베딩 API의 정규화 동작 일관성 확보
- MLX 모델 로딩 로직을 DRY 원칙에 따라 최적화
- VRAM 제한 환경을 위한 배치 크기 감소 및 iGPU 활성화 안내 추가
- llama-server 후속 조치
#16031에 대한 기타 수정 사항
-
Windows에서 멀티 GPU (multi-GPU) 지원을 위해 누락되었던 ROCm 빌드 플래그(build flag)를 다시 추가
-
"latest" 선택 시 amdhip64_*.dll 버전 감지 문제 수정
-
이전 버전과 일관된 정규화(normalize) 동작을 위해 임베딩 (embeddings) API 수정
-
ci: llama.cpp 자동 업데이트 테스트를 위한 설정
-
fa-disabled 및 제한된 VRAM 환경을 위한 배치 (batch) 크기 감소
-
mlx: m5에서의 v3 로드 버그 수정
Imagegen이 v3를 먼저 잘못 로드하고 있었습니다. 로딩 코드를 DRY(Don't Repeat Yourself) 원칙에 따라 정리하여, imagegen이 동일한 새로운 v4/v3 선택 로직을 사용하도록 합니다.
-
임베딩 (embedding) 모델의 리로드 (reload) 버그 수정
-
버전 업데이트
-
iGPU가 비활성화되었을 때 사용자가 활성화할 수 있도록 안내
AI 자동 생성 콘텐츠
본 콘텐츠는 RSS: GitHub ollama/ollama releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기