본문으로 건너뛰기

© 2026 Molayo

GitHub헤드라인2026. 06. 02. 02:46

- llama-server 후속 조치 [#16031](https://github.com/ollama/ollama/pull/16031)에 대한 기

요약

Ollama의 llama-server 관련 버그 수정 및 기능 개선 사항을 다룹니다. Windows 멀티 GPU 지원을 위한 ROCm 플래그 추가, 임베딩 API 수정, MLX 로딩 로직 개선 등이 포함되었습니다.

핵심 포인트

  • Windows 환경의 멀티 GPU 지원을 위한 ROCm 빌드 플래그 복구
  • 임베딩 API의 정규화 동작 일관성 확보
  • MLX 모델 로딩 로직을 DRY 원칙에 따라 최적화
  • VRAM 제한 환경을 위한 배치 크기 감소 및 iGPU 활성화 안내 추가
  • llama-server 후속 조치

#16031에 대한 기타 수정 사항

  • Windows에서 멀티 GPU (multi-GPU) 지원을 위해 누락되었던 ROCm 빌드 플래그(build flag)를 다시 추가

  • "latest" 선택 시 amdhip64_*.dll 버전 감지 문제 수정

  • 이전 버전과 일관된 정규화(normalize) 동작을 위해 임베딩 (embeddings) API 수정

  • ci: llama.cpp 자동 업데이트 테스트를 위한 설정

  • fa-disabled 및 제한된 VRAM 환경을 위한 배치 (batch) 크기 감소

  • mlx: m5에서의 v3 로드 버그 수정

Imagegen이 v3를 먼저 잘못 로드하고 있었습니다. 로딩 코드를 DRY(Don't Repeat Yourself) 원칙에 따라 정리하여, imagegen이 동일한 새로운 v4/v3 선택 로직을 사용하도록 합니다.

  • 임베딩 (embedding) 모델의 리로드 (reload) 버그 수정

  • 버전 업데이트

  • iGPU가 비활성화되었을 때 사용자가 활성화할 수 있도록 안내

AI 자동 생성 콘텐츠

본 콘텐츠는 RSS: GitHub ollama/ollama releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0