Lemonade v10.8: 자동 메모리 관리, 클라우드 오프로드, Omni 개선 및 로컬 모델을 MCP 도구로 호출하기
요약
Lemonade v10.8 업데이트를 통해 동적 VRAM 관리, 클라우드 오프로드, MCP 게이트웨이 기능이 추가되었습니다. 로컬 모델과 클라우드 API를 유연하게 전환하며 사용할 수 있는 로컬 우선(Local-first) 환경을 제공합니다.
핵심 포인트
- 동적 VRAM 관리 및 자동 컨텍스트 크기 조정 기능 도입
- OpenAI 호환 제공업체를 활용한 클라우드 오프로드 지원
- 로컬 모델을 도구로 활용할 수 있는 MCP 게이트웨이 구현
- NVIDIA Blackwell 및 AMD Radeon 등 교차 벤더 지원 확대
v10.8이 출시되었습니다. 이번 업데이트에 포함된 프로젝트 내용을 공유합니다. 단 7일 만에 20명의 기여자가 참여한 릴리스입니다!
더 스마트해진 메모리 및 컨텍스트 관리
동적 VRAM 관리 기능이 추가되어, 유휴 모델을 자동으로 언로드(unload)하고 KV-캐시 (KV-cache) 크기를 줄여 GPU 메모리를 즉시 확보합니다. 또한 모델 고정 (model pinning) 기능을 통해 사용자가 원하는 모델이 메모리에서 해제되지 않도록 할 수 있습니다.
자동 컨텍스트 크기 조정 (Automatic context sizing) 기능을 통해, 사용자가 수동으로 설정할 필요 없이 Lemonade가 가용 메모리와 모델 아키텍처 (model architecture)를 바탕으로 컨텍스트 길이를 결정합니다.
로컬 모델과 함께 사용하는 클라우드 오프로드 (Cloud offload)
때로는 자신의 기기에서 실행할 수 있는 것보다 더 큰 모델이 필요할 때가 있습니다. 이제 제공업체에 구애받지 않는 오프로드 백엔드 (offload backend)가 있어, OpenAI 호환 제공업체(Fireworks, OpenRouter, Together, OpenAI)의 채팅 완성 (chat completions) 서비스를 로컬 모델과 나란히 사용할 수 있으며, CLI 또는 UI에서 전환이 가능합니다. 기본값이 아닌 클라우드를 옵션으로 사용하는 로컬 우선 (Local-first) 방식입니다. 궁극적으로는 애플리케이션이 자체 라우팅 정책에 따라 클라이언트와 클라우드 사이를 라우팅할 수 있도록 지원하고자 합니다.
** LMX-Omni 이미지 생성 확장
LMX-Omni는 이제 이미지 생성을 위한 크기, 단계 (steps) 등의 제어 기능을 제공합니다. 또한 Hugging Face에서 커스텀 Omni 모델을 직접 가져오거나 공유할 수 있습니다.
MCP 게이트웨이: 로컬 모델을 도구로 활용
이제 5가지 도구(모델 목록, 채팅, 오디오 전사 (audio transcription), 이미지 생성, 멀티모달 Omni)를 노출하는 MCP 게이트웨이 (POST /mcp)가 있습니다. MCP를 인식하는 모든 호스트는 클라우드 API를 호출하는 대신 로컬 Lemonade 모델을 도구로서 호출할 수 있습니다.
광범위한 플랫폼 확장
AMD, NVIDIA 등을 아우르는 교차 벤더 (cross-vendor) 지원이 계속되었습니다: NVIDIA GB10 (Blackwell) arm64 CUDA, Radeon RX GPU를 위한 Windows용 TheRock ROCm, Radeon 840M/860M iGPU를 위한 ROCm, Windows 및 Linux용 ROCm으로 이동한 whisper.cpp, 전용 Debian 13 빌드, 그리고 CDNA 데이터센터 GPU 감지 수정 사항이 포함되었습니다.
또한 아주 멋진 새로운 채팅 CLI도 추가되었습니다!
전체 릴리스 노트는 GitHub에서 확인하실 수 있습니다: https://github.com/lemonade-sdk/lemonade/releases/tag/v10.8.0
submitted by /u/jfowers_amd
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기