Lemonade v10.8: 자동 메모리 관리, 클라우드 오프로드, Omni 개선 및 로컬 모델을 MCP 도구로 호출하기

v10.8이 출시되었습니다. 이번 업데이트에 포함된 프로젝트 내용을 공유합니다. 단 7일 만에 20명의 기여자가 참여한 릴리스입니다!

더 스마트해진 메모리 및 컨텍스트 관리
동적 VRAM 관리 기능이 추가되어, 유휴 모델을 자동으로 언로드(unload)하고 KV-캐시 (KV-cache) 크기를 줄여 GPU 메모리를 즉시 확보합니다. 또한 모델 고정 (model pinning) 기능을 통해 사용자가 원하는 모델이 메모리에서 해제되지 않도록 할 수 있습니다.
자동 컨텍스트 크기 조정 (Automatic context sizing) 기능을 통해, 사용자가 수동으로 설정할 필요 없이 Lemonade가 가용 메모리와 모델 아키텍처 (model architecture)를 바탕으로 컨텍스트 길이를 결정합니다.

로컬 모델과 함께 사용하는 클라우드 오프로드 (Cloud offload)
때로는 자신의 기기에서 실행할 수 있는 것보다 더 큰 모델이 필요할 때가 있습니다. 이제 제공업체에 구애받지 않는 오프로드 백엔드 (offload backend)가 있어, OpenAI 호환 제공업체(Fireworks, OpenRouter, Together, OpenAI)의 채팅 완성 (chat completions) 서비스를 로컬 모델과 나란히 사용할 수 있으며, CLI 또는 UI에서 전환이 가능합니다. 기본값이 아닌 클라우드를 옵션으로 사용하는 로컬 우선 (Local-first) 방식입니다. 궁극적으로는 애플리케이션이 자체 라우팅 정책에 따라 클라이언트와 클라우드 사이를 라우팅할 수 있도록 지원하고자 합니다.

** LMX-Omni 이미지 생성 확장
LMX-Omni는 이제 이미지 생성을 위한 크기, 단계 (steps) 등의 제어 기능을 제공합니다. 또한 Hugging Face에서 커스텀 Omni 모델을 직접 가져오거나 공유할 수 있습니다.

MCP 게이트웨이: 로컬 모델을 도구로 활용
이제 5가지 도구(모델 목록, 채팅, 오디오 전사 (audio transcription), 이미지 생성, 멀티모달 Omni)를 노출하는 MCP 게이트웨이 (POST /mcp)가 있습니다. MCP를 인식하는 모든 호스트는 클라우드 API를 호출하는 대신 로컬 Lemonade 모델을 도구로서 호출할 수 있습니다.

광범위한 플랫폼 확장
AMD, NVIDIA 등을 아우르는 교차 벤더 (cross-vendor) 지원이 계속되었습니다: NVIDIA GB10 (Blackwell) arm64 CUDA, Radeon RX GPU를 위한 Windows용 TheRock ROCm, Radeon 840M/860M iGPU를 위한 ROCm, Windows 및 Linux용 ROCm으로 이동한 whisper.cpp, 전용 Debian 13 빌드, 그리고 CDNA 데이터센터 GPU 감지 수정 사항이 포함되었습니다.
또한 아주 멋진 새로운 채팅 CLI도 추가되었습니다!

전체 릴리스 노트는 GitHub에서 확인하실 수 있습니다: https://github.com/lemonade-sdk/lemonade/releases/tag/v10.8.0
submitted by /u/jfowers_amd
[link] [comments]

Insights

Lemonade v10.8: 자동 메모리 관리, 클라우드 오프로드, Omni 개선 및 로컬 모델을 MCP 도구로 호출하기

요약

핵심 포인트

댓글

경영대학원이 AI를 핵심 엔지니어링 기술처럼 가르치는 이유

N0-VTLA

10년이 지난 지금도 1080p 게이밍에서 작동하는 GTX 1080 Ti, 하지만 세월의 흔적을 감추지 못하다

RLVR에서 RLSVR로

경영대학원이 AI를 핵심 엔지니어링 기술처럼 가르치는 이유

N0-VTLA

10년이 지난 지금도 1080p 게이밍에서 작동하는 GTX 1080 Ti, 하지만 세월의 흔적을 감추지 못하다

RLVR에서 RLSVR로