© 2026 Molayo

GitHub헤드라인2026. 06. 02. 02:46

- llama-server 후속 조치 [#16031](https://github.com/ollama/ollama/pull/16031)에 대한 기

요약

Ollama의 llama-server 관련 버그 수정 및 기능 개선 사항을 다룹니다. Windows 멀티 GPU 지원을 위한 ROCm 플래그 추가, 임베딩 API 수정, MLX 로딩 로직 개선 등이 포함되었습니다.

핵심 포인트

Windows 환경의 멀티 GPU 지원을 위한 ROCm 빌드 플래그 복구
임베딩 API의 정규화 동작 일관성 확보
MLX 모델 로딩 로직을 DRY 원칙에 따라 최적화
VRAM 제한 환경을 위한 배치 크기 감소 및 iGPU 활성화 안내 추가

llama-server 후속 조치

#16031에 대한 기타 수정 사항

Windows에서 멀티 GPU (multi-GPU) 지원을 위해 누락되었던 ROCm 빌드 플래그(build flag)를 다시 추가
"latest" 선택 시 amdhip64_*.dll 버전 감지 문제 수정
이전 버전과 일관된 정규화(normalize) 동작을 위해 임베딩 (embeddings) API 수정
ci: llama.cpp 자동 업데이트 테스트를 위한 설정
fa-disabled 및 제한된 VRAM 환경을 위한 배치 (batch) 크기 감소
mlx: m5에서의 v3 로드 버그 수정

Imagegen이 v3를 먼저 잘못 로드하고 있었습니다. 로딩 코드를 DRY(Don't Repeat Yourself) 원칙에 따라 정리하여, imagegen이 동일한 새로운 v4/v3 선택 로직을 사용하도록 합니다.

임베딩 (embedding) 모델의 리로드 (reload) 버그 수정
버전 업데이트
iGPU가 비활성화되었을 때 사용자가 활성화할 수 있도록 안내

AI 자동 생성 콘텐츠

본 콘텐츠는 RSS: GitHub ollama/ollama releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기

0

댓글

0