Ollama헤드라인2026. 04. 23. 19:37

Ollama v0.21.1 업데이트: Kimi CLI 지원 및 MLX 성능 개선

요약

Ollama의 최신 버전인 v0.21.1이 출시되어 사용자들에게 다양한 기능 개선 사항을 제공합니다. 가장 주목할 만한 변화는 Kimi CLI를 Ollama를 통해 직접 설치하고 실행할 수 있게 되었다는 점입니다. 이를 통해 장기적인 에이전트 작업 수행에 강점을 가진 Kimi-K2.6 모델을 활용할 수 있습니다. 또한, MLX 러너의 성능과 안정성이 대폭 향상되었으며, GLM4 MoE Lite와 같은 특정 모델의 효율성 개선도 이루어졌습니다. macOS 앱의 버그 수정 및 Gemma 4를 위한 구조화된 출력 기능 추가 등 전반적인

핵심 포인트

Ollama를 통해 Kimi CLI를 설치하고 실행할 수 있게 되어 장기 에이전트 작업 수행 능력이 향상되었습니다.
MLX 러너가 Top-P와 Top-K 결합 샘플링을 단일 패스로 처리하여 샘플링 속도가 빨라졌습니다.
GLM4 MoE Lite의 성능 개선과 macOS 앱의 버그 수정 등 전반적인 안정성이 강화되었습니다.

Ollama v0.21.1 업데이트는 여러 핵심 기능 및 성능 향상을 포함합니다. 가장 눈에 띄는 변화는 Kimi CLI를 Ollama 환경에서 직접 실행할 수 있게 된 것입니다. 이 기능을 통해 장기적인 에이전트 작업 수행에 특화된 Kimi-K2.6 모델을 활용하는 것이 가능해졌습니다.

기술적 측면에서는 MLX 러너의 개선이 두드러집니다. 이제 Top-P와 Top-K를 하나의 정렬 과정(sort pass)에서 결합하여 샘플링할 수 있어 속도가 빨라지고, 반복 페널티(repeat penalties) 적용도 향상되었습니다. 또한, 요청 핸들러 고루틴으로 토큰화(tokenization)가 이동하면서 MLX 프롬프트 처리의 안정성과 효율성이 높아졌습니다.

모델 및 플랫폼 측면에서도 개선이 이루어졌습니다. GLM4 MoE Lite는 결합 시그모이드 라우터 헤드(fused sigmoid router head)를 통해 성능을 향상시켰으며, macOS 앱에서 채팅 전환 후 오래된 모델 정보가 표시되던 버그가 수정되었습니다. 마지막으로, Gemma 4의 경우 think=false 설정 시 구조화된 출력(structured outputs) 기능이 추가되어 활용도가 높아졌습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Ollama v0.21.1 업데이트: Kimi CLI 지원 및 MLX 성능 개선

요약

핵심 포인트

댓글