Reddit요약2026. 05. 15. 04:46

llama.cpp를 사용하여 로컬에서 실행되는 자동화된 AI 연구원

요약

Hugging Face에서 오픈 소스 라이브러리 및 Hub 인프라와 에이전트(agents)의 통합을 돕는 하네스인 ml-intern을 공개했습니다. 이 도구는 원래 Claude Opus를 위해 개발되었으나, 최근 llama.cpp 또는 ollama를 통해 로컬 모델로 실행할 수 있는 기능을 추가하여 접근성을 높였습니다. 이를 통해 Qwen3.6-35B-A3B와 같은 오픈 모델을 활용해 CPU/GPU 샌드박스 및 작업을 오케스트레이션하며 엔드 투 엔드 SFT가 가능한 AI 연구원을 구축할 수 있습니다.

핵심 포인트

ml-intern은 에이전트의 Hugging Face 라이브러리 및 Hub 인프라 통합을 위한 하네스입니다.
llama.cpp 또는 ollama를 지원하여 로컬 환경에서 ml-intern 실행이 가능해졌습니다.
Qwen3.6-35B-A3B와 같은 오픈 모델로 CPU/GPU 샌드박스와 작업을 오케스트레이션하며 SFT가 가능합니다.
사용자는 토큰 제한에 구애받지 않고 노트북에서 장시간 작동하는 AI 연구원을 구축할 수 있습니다.

안녕하세요 여러분, 에이전트(agents)가 Hugging Face의 오픈 소스 라이브러리(transformers, datasets, trl 등) 및 Hub 인프라와 더 긴밀하게 통합될 수 있도록 돕는 하네스(harness)인 ml-intern을 공유하게 되어 기쁩니다:

https://github.com/huggingface/ml-intern

이 하네스는 매우 간단하며(기본적으로 도구(tools) + 시스템 프롬프트(system prompt) 구성), 처음에는 Claude Opus를 위해 구축되었습니다. 하지만 이제 오픈 모델(open models)들이 에이전트 워크플로우(agentic workflows)를 매우 잘 수행하게 됨에 따라, llama.cpp 또는 ollama를 통해 로컬 모델(local models)로 ml-intern을 실행할 수 있는 지원 기능을 방금 추가했습니다. 영상에서 보시는 바와 같이, Qwen3.6-35B-A3B는 Hub에서 CPU/GPU 샌드박스(sandboxes)와 작업(jobs)을 오케스트레이션(orchestrating)함으로써 모델을 엔드 투 엔드(end-to-end)로 SFT(지도 미세 조정, Supervised Fine-Tuning)할 수 있습니다. 이제 토큰 제한(token limits)을 최대로 사용하지 않고도 노트북에서 24시간 내내 실행되는 AI 연구원을 가질 수 있다는 점에서 매우 멋지다고 생각합니다 :)

어쨌든, 이것이 커뮤니티에 유용하기를 바라며, 저희가 포함하기를 원하는 기능이 있다면 알려주세요.

AI 자동 생성 콘텐츠

원문 바로가기

llama.cpp를 사용하여 로컬에서 실행되는 자동화된 AI 연구원

요약

핵심 포인트

댓글