Mellum2 MoE, Heretic 검열 제거, & 로컬 AI를 위한 NVIDIA Cosmos 3 Omni-model

오늘의 주요 소식

JetBrains가 효율적인 로컬 추론 (local inference)에 최적화된 12B Mixture-of-Experts (MoE) 모델인 Mellum2를 공개하며, 오픈 웨이트 (open-weight) LLM 생태계를 확장했습니다. 또한, 오픈 언어 모델에서 자동 검열 제거 (censorship removal)를 위한 솔루션인 'Heretic' 도구가 등장하여 사용자에게 더 많은 제어권을 부여합니다. NVIDIA는 또한 물리적 AI 추론 (physical AI reasoning)을 위한 오픈 옴니-모델 (omni-model)인 Cosmos 3를 소개하며, 소비자용 GPU에서 고급 멀티모달 (multimodal) 기능을 약속했습니다.

Mellum2 소개: JetBrains의 12B Mixture-of-Experts 모델 (Hugging Face 블로그)

출처: https://huggingface.co/blog/JetBrains/mellum2-launch

JetBrains는 성능과 효율성의 균형을 위해 설계된 새로운 120억 파라미터(12-billion parameter) Mixture-of-Experts (MoE) 모델인 Mellum2를 공개했습니다. Mellum2는 오픈 웨이트 (open-weight) LLM 생태계에 추가된 작지만 강력한 모델로, 특히 세밀한 이해와 생성이 필요한 작업에 최적화되어 있습니다. MoE 모델로서 이 모델은 희소 활성화 (sparse activation) 메커니즘을 활용합니다. 이는 추론 (inference) 중에 파라미터의 일부만 활성화됨을 의미하며, 유사한 파라미터 수를 가진 밀집 모델 (dense models)에 비해 더 빠른 추론 속도와 더 낮은 계산 요구 사항을 제공할 수 있어 소비자급 GPU에서의 로컬 추론 (local inference)에 적합합니다.

이 모델의 12B 파라미터 규모와 MoE 아키텍처의 결합은 대규모 모델의 막대한 리소스 요구 사항 없이 고급 언어 능력을 배포하려는 개발자와 연구자들에게 강력한 후보가 됩니다. 이는 로컬 AI 및 오픈 모델에 대한 집중 트렌드에 잘 부합하며, 셀프 호스팅 (self-hosting)을 위한 실질적인 옵션을 제공합니다. 개발자들은 Hugging Face에서 이 모델의 역량을 탐색할 수 있으며, 양자화 (quantized) 버전을 통해 llama.cpp 또는 Ollama와 같은 일반적인 로컬 추론 프레임워크를 지원하거나, 더 강력한 로컬 설정에서 가속화된 서버 측 추론을 위해 vLLM을 지원할 가능성이 높습니다.

댓글: 새로운 12B MoE 모델은 로컬 배포에 환상적입니다. MoE는 일반적으로 크기 대비 더 나은 성능을 의미하므로, llama.cpp를 사용하여 제 소비자용 GPU에서 테스트해 볼 수 있는 GGUF 양자화 (quantizations) 버전을 찾아볼 예정입니다.

Heretic: 언어 모델을 위한 완전 자동 검열 제거 (GitHub Trending)

출처: https://github.com/p-e-w/heretic

GitHub 트렌딩 저장소인 p-e-w/heretic은 오픈 웨이트 (open-weight) 언어 모델에서 검열을 완전히 자동으로 제거하도록 설계된 새로운 Python 도구를 소개합니다. 이 프로젝트는 모델 출력에 대해 더 큰 제어권을 요구하고 베이스 모델 (base models)의 필터링되지 않은 전체 능력을 탐구하고자 하는, 셀프 호스팅 LLM을 다루는 개발자와 연구자들에게 매우 유용합니다. Heretic은 모델이 비공개로 배포되었을 때조차 때때로 창의적이거나 정보적인 출력을 의도치 않게 제한할 수 있는 안전 메커니즘 (safety mechanisms) 또는 가드레일 (guardrails)을 나타내는 일반적인 문제를 해결하는 것을 목표로 합니다.

이 도구의 구현은 이러한 사전 학습된 검열 레이어 (censorship layers)를 자동으로 식별하고 중화하여, 기본 모델을 효과적으로 "해방(uncaging)"하는 데 집중합니다. 그 방법론(예: 미세 조정 (fine-tuning), 프롬프트 엔지니어링 (prompt engineering), 또는 직접적인 가중치 수정 (direct weight modification))에 대한 구체적인 기술적 세부 사항은 저장소에 대한 더 깊은 조사가 필요하겠지만, 이 도구의 가치는 오픈 LLM의 동작을 커스텀할 수 있는 실용적인 오픈 소스 솔루션을 제공한다는 점에 있습니다. 이러한 기능은 일반적인 공개 배포 환경에서 벗어나, 특정하고 윤리적인 사용 사례를 위해 더 가공되지 않은, 잠재적으로 더 유용한 응답을 가능하게 함으로써 로컬 AI 애플리케이션의 한계를 넓히고자 하는 고급 사용자들에게 매우 중요합니다. GitHub 저장소로서, git clone을 통해 즉시 접근하여 실험해 볼 수 있습니다.

댓글: 이 도구는 제한적인 가드레일 없이 로컬에서 오픈 소스 모델을 완전히 잠금 해제하려는 모든 이들에게 게임 체인저가 될 것입니다. 구현 세부 사항과 이것이 다양한 모델 아키텍처 (architectures)와 어떻게 상호작용하는지 매우 궁금합니다.

NVIDIA Cosmos 3: 물리적 AI 추론 및 행동을 위한 최초의 오픈 옴니 모델 (Hugging Face Blog)

출처: https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai

NVIDIA는 물리적 AI 추론 및 행동 (Physical AI Reasoning and Action)을 위한 최초의 모델로 자리매김할 야심 찬 "오픈 옴니 모델 (Open Omni-model)"인 Cosmos 3를 발표했습니다. 이번 출시는 "로컬 AI 및 오픈 모델 (Local AI & Open Models)" 카테고리에서 특히 흥미로운데, 순수 텍스트를 넘어선 작업에서 점점 더 중요해지고 있는 AI 유형인 오픈 웨이트 (open-weight) 멀티모달 (multimodal) 모델을 강조하기 때문입니다. "옴니 모델 (omni-model)"이라는 명칭은 시각 (vision), 텍스트, 그리고 잠재적으로 다른 감각 데이터까지 포함하는 다양한 모달리티 (modalities) 전반에 걸친 포괄적인 이해를 의미하며, 이는 소비자용 GPU에서 실행 가능한 더 풍부한 상호작용과 애플리케이션을 가능하게 합니다.

"물리적 AI 추론 및 행동 (Physical AI Reasoning and Action)"에 초점을 맞춘 것은 로봇 공학 (robotics), 시뮬레이션 (simulation), 그리고 저지연 의사결정을 위해 로컬 추론 (local inference)이 종종 필수적인 실제 환경에서의 상호작용 분야에서의 응용을 시사합니다. 만약 Cosmos 3가 셀프 호스팅 (self-hosting)을 위한 다운로드 가능한 웨이트 (weights)와 지침을 제공한다면, 이는 자신의 하드웨어에서 복잡한 멀티모달 AI 에이전트 및 시스템을 구축하려는 개발자들에게 중요한 진전을 의미합니다. 이는 순수 언어 생성을 넘어 인터랙티브 AI (interactive AI), 홈 오토메이션 (home automation), 또는 심지어 고급 게임 AI와 같은 분야에서 로컬 개발을 위한 강력한 새로운 도구를 제공함으로써, 소비자용 GPU에서 실행 가능한 멀티모달 모델에 대한 해당 카테고리의 관심사와 완벽하게 일치합니다.

댓글: NVIDIA의 오픈 옴니 모델은, 특히 소비자용 GPU에서 실제로 실행 가능하다면, 멀티모달 로컬 AI 개발에 있어 엄청난 사건입니다. 로컬 추론을 위해 vLLM이나 llama.cpp와 같은 도구들을 사용했을 때 얼마나 뛰어난 성능을 보여줄지 매우 기대됩니다.

Mellum2 MoE, Heretic 검열 제거, & 로컬 AI를 위한 NVIDIA Cosmos 3 Omni-model

요약

핵심 포인트