© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

Hugging Face Blog 277건필터 해제

HuggingFace헤드라인

PipelineRL

본 기술 기사는 LLM(대규모 언어 모델)의 강화학습(RL) 훈련 과정에서 발생하는 '인플라이트(inflight) 중량 업데이트' 개념을 소개하며, 이를 통해 추론 성능과 학습 안정성 간의 트레이드오프를 해결하는 PipelineRL 프레임워크를 제시합니다. PipelineRL은 추론 서버가 추론을 멈추지 않고도 최적화 단계 후 실시간으로 가중치를 업데이트할 수 있게 하여, 데이터 효율성과 GPU 활용도를 극대화합니다. 이 프레임워크는 기존 복잡한 RL 알고리즘(예: 가치 함수 사용)의 단점을 개선하고 단순화된 GRPO 기반 접근 방식을 채택했음에도 불구하고, Open-Reasoner-Zero와 경쟁할 만한 높은 성능을 달성함을 입증했습니다. 또한 모듈식 아키텍처를 통해 다양한 최신 추론/훈련 소프트웨어(vLLM, DeepSpeed 등)와의 통합이 용이하도록 표준 API 인터페이스를 정의합니다.

HuggingFace헤드라인

olmOCR 를 충실한 OCR 엔진으로 미세 조정하기

본 기사는 기존 OCR 엔진(olmOCR)이 헤더 및 푸터와 같은 레이아웃의 중요한 정보를 누락하는 문제를 다루고, 이 한계를 극복하기 위한 미세 조정 과정을 설명합니다. 저자들은 Qwen2.5-VL-72B-Instruct를 사용하여 8,000개의 문서 데이터셋으로 olmOCR을 재훈련시켰으며, 그 결과 헤더와 푸터의 중요한 정보까지 포함하여 포괄적인 정보 추출이 가능해졌음을 보여줍니다.

HuggingFace헤드라인

Hugging Face Hub 에서 Llama Guard 4 환영

Meta가 12B dense 멀티모달 안전 모델인 Llama Guard 4와 두 가지 새로운 Llama Prompt Guard 2를 Hugging Face Hub에 출시했습니다. Llama Guard 4는 이미지, 텍스트 입력 및 생성된 콘텐츠의 부적절한 내용을 감지하여 프로덕션 환경에서 AI의 안정성을 높이는 데 사용됩니다. 이 모델은 단일 GPU(24GB VRAM)에서도 실행 가능하며, 다양한 위험 카테고리 및 코드 인터프리터 악용을 분류할 수 있습니다.

HuggingFace헤드라인

LeRobot 커뮤니티 데이터셋: 로봇의 'ImageNet'은 언제 어떻게 만들어질까?

본 기사는 로봇 공학의 핵심 과제가 단순한 민첩성(dexterity)이 아닌, 물리적, 시각적, 의미론적 수준에서의 '일반화(generalization)'에 있음을 강조합니다. 이러한 일반화를 달성하기 위해서는 다양한 환경, 작업, 그리고 구현체에서 수집된 이질적인 데이터셋을 통한 공동 학습(co-training)이 필수적입니다. 따라서 기사는 LeRobot 커뮤니티 데이터셋의 중요성을 부각하며, 로봇 데이터 수집 및 공유를 접근 가능하게 만들어 '로봇의 ImageNet'을 구축하려는 노력을 소개합니다.

HuggingFace헤드라인

그라디오 (Gradio) 로 MCP 서버 구축하기

이 가이드는 Gradio 라이브러리를 사용하여 Model Context Protocol (MCP) 서버를 구축하는 방법을 설명합니다. Gradio는 기존의 ML 모델 인터페이스 기능을 넘어, 이제 LLM(대규모 언어 모델)이 호출할 수 있는 표준화된 도구 세트를 제공하는 MCP 서버 역할을 수행할 수 있습니다. 개발자는 간단한 Python 함수에 `mcp_server=True` 옵션만 추가함으로써, 해당 함수가 LLM의 도구로 자동 변환되어 외부 애플리케이션(MCP 클라이언트)에서 활용 가능하게 됩니다. 이 기능을 통해 Gradio 앱은 단순한 UI를 넘어, 이미지 생성, 오디오 합성, 문자열 처리 등 다양한 작업을 수행하는 '능력'을 가진 통합적인 백엔드 서비스가 될 수 있습니다. 또한, MCP는 도구 외에도 데이터 리소스와 재사용 가능한 프롬프트 정의까지 지원하여 LLM 기반 애플리케이션의 기능을 확장합니다.

HuggingFace헤드라인

비전 언어 모델 (더 나은, 더 빠른, 더 강력한)

본 기사는 지난 1년간 비전 언어 모델(VLMs) 분야에서 발생한 주요 변화와 최신 트렌드를 포괄적으로 다루고 있습니다. VLM은 단순히 이미지와 텍스트를 결합하는 것을 넘어, 'Any-to-any'처럼 어떤 모달리티의 입력이든 다른 모달리티로 출력할 수 있는 방향으로 진화하고 있습니다. 특히 Qwen 2.5 Omni나 MiniCPM-o 같은 최신 모델들은 텍스트 생성(Thinker)과 음성 응답(Talker)을 분리하거나, 비전/음성/언어 등 여러 모달리티를 통합적으로 이해하고 콘텐츠를 생성하는 강력한 능력을 보여주며, 추론 및 에이전트 기능까지 갖추고 있습니다.

HuggingFace헤드라인

Inference Endpoints 를 활용한 초고속 Whisper 전사

본 기사는 Hugging Face Inference Endpoints를 활용하여 Whisper 모델의 전사(transcription) 속도를 극대화하는 방법을 설명합니다. vLLM 프로젝트와 PyTorch 컴파일레이션, CUDA graphs, float8 KV cache 양자화 등 최신 AI 최적화 기술들을 결합하여, NVIDIA GPU 환경에서 기존 대비 획기적으로 빠른 추론 성능을 달성했습니다. 이를 통해 사용자는 복잡한 ASR 파이프라인을 간편하게 배포하고, 높은 전사 품질과 실시간 효율성을 갖춘 서비스를 구축할 수 있습니다.

HuggingFace헤드라인

NVIDIA Nemotron 3 Nano Omni: 문서, 오디오 및 비디오 에이전트를 위한 긴 컨텍스트 멀티모달 지능 소개

NVIDIA Nemotron 3 Nano Omni는 문서, 오디오, 비디오를 포함한 다양한 모달리티의 복잡하고 긴 컨텍스트를 이해하도록 설계된 최신 오미모달(omni-modal) 지능 모델입니다. 이 모델은 Mamba-Transformer 혼합 전문가 백본과 전문 인코더들을 결합하여, 장문 문서 분석, 다중 이미지 추론, 자동 음성 인식, 그리고 긴 오디오-비디오 이해 등 광범위한 작업을 최고 수준의 정확도로 수행합니다. 특히 높은 처리량과 효율성을 자랑하며, 에이전트 기반 컴퓨터 사용 및 복잡한 다단계 추론 작업에 최적화되어 있습니다.

HuggingFace헤드라인

(LoRA) 소비자 하드웨어에서 FLUX.1-dev 미세 조정

본 기술 기사는 소비자급 하드웨어(예: RTX 4090)에서 FLUX.1-dev와 같은 대규모 확산 모델을 효율적으로 미세 조정하는 방법을 안내합니다. 핵심은 QLoRA(Quantized LoRA) 및 FP8 학습과 같은 메모리 최적화 기술을 활용하여, 단일 GPU 환경에서도 VRAM 사용량을 10GB 내외로 유지하며 고품질의 커스터마이징된 모델을 구축할 수 있다는 점입니다. 이를 통해 사용자들은 접근성이 높은 하드웨어에서 전문적인 AI 모델 개발 작업을 수행할 수 있게 됩니다.

HuggingFace헤드라인

Kaggle 사용자를 위한 Hugging Face 모델 접근성 개선

Kaggle이 Hugging Face 모델과의 통합을 개선하여, 사용자들이 두 플랫폼 간에 모델 접근성과 가시성을 높일 수 있게 되었습니다. 이제 Kaggle 노트북 내에서 Hugging Face 모델을 쉽게 불러와 사용할 수 있으며, 반대로 Kaggle의 모델도 Hugging Face Hub에서 관리할 수 있습니다. 이 통합은 사용자 경험을 향상시키고 커뮤니티가 더 많은 최신 AI 모델과 예제 코드를 한 곳에서 탐색하도록 돕는 것을 목표로 합니다.

HuggingFace헤드라인

Falcon-Edge: 강력한 범용 및 미세 조정 가능한 1.58bit 언어 모델 시리즈 소개

Falcon-Edge는 BitNet 아키텍처를 기반으로 하는 강력하고 범용적이며 미세 조정 가능한 1.58bit 언어 모델 시리즈입니다. 이 모델은 단일 훈련 프로세스를 통해 양자화되지 않은 버전, 네이티브 BitNet 버전, 그리고 사전 양자화된 변형을 모두 제공하여 사용자가 특정 응용 분야에 맞게 모델을 정밀하게 커스터마이징할 수 있게 합니다. Falcon-Edge는 기존 LLM의 자원 집약적인 문제를 해결하기 위해 훈련 중 가장 낮은 정밀도인 삼원식 가중치({-1, 0, 1})를 사용하여 엔드 투 엔드 초고속 설계를 가능하게 했습니다. 이 접근 방식은 메모리 효율적이며 'matmul-free' LLM 설계로의 길을 열어주며, 유사한 크기의 다른 모델과 동등하거나 더 나은 성능을 보여줍니다.

HuggingFace헤드라인

Transformers 라이브러리: 모델 정의 표준화

Transformers 라이브러리는 BERT 출시 이후 NLP를 넘어 오디오, 컴퓨터 비전까지 아우르며 LLM 및 VLM의 핵심 표준 라이브러리로 자리매김했습니다. 현재 300개 이상의 모델 아키텍처를 지원하며, Axolotl, Unsloth 등 다양한 훈련 프레임워크와 vLLM, SGLang 같은 최신 추론 엔진과의 강력한 통합을 제공합니다. 앞으로는 llama.cpp 및 MLX와의 상호 운용성을 강화하고, 모듈화된 모델 정의 표준화를 통해 모든 다운스트림 도구에서 모델 사용의 장벽을 낮추어 생태계 전체의 효율성과 접근성을 극대화하는 것을 목표로 합니다.

HuggingFace헤드라인

nanoVLM: 순수 PyTorch 로 VLM 훈련하기 가장 간단한 저장소

nanoVLM은 순수 PyTorch를 사용하여 Vision Language Model(VLM)을 훈련할 수 있도록 설계된 초보자 친화적인 경량 툴킷입니다. 이 프로젝트는 Andréj Karpathy의 nanoGPT에서 영감을 받아, VLM의 복잡한 작동 원리를 이해하고 실제로 구현해보고 싶은 사용자들을 위해 최소화되고 가독성이 높은 코드를 제공합니다. VLM은 이미지와 텍스트 두 가지 모달리티를 처리하여 캡셔닝, 객체 감지, 시각적 질문 답변(VQA) 등 다양한 작업을 수행할 수 있습니다. nanoVLM은 특히 VQA에 초점을 맞추고 있으며, 표준 Vision Transformer (SigLIP)와 Llama 3 아키텍처 기반의 언어 모델을 결합하고 Modality Projection 모듈로 두 임베딩 공간을 정렬하는 방식으로 작동합니다. 사용자는 제공된 `train.py` 스크립트를 통해 로컬 설정 없이도 쉽게 VLM 훈련 파이프라인 전체를 실행할 수 있습니다.

HuggingFace헤드라인

Hugging Face Diffusers 의 양자화 백엔드 탐색

본 기술 기사는 Hugging Face Diffusers 라이브러리에서 다양한 양자화 백엔드(bitsandbytes, GGUF, torchao, Quanto, FP8 등)를 사용하여 대규모 확산 모델(Diffusion Model)의 메모리 효율성을 높이는 방법을 심층적으로 탐구합니다. 특히 Flux-dev와 같은 강력한 모델을 BF16 정밀도로 로드할 때 필요한 막대한 메모리 요구 사항을 언급하며, 양자화를 통해 메모리를 크게 절감하면서도 높은 성능을 유지하는 것이 핵심 목표입니다. 다양한 백엔드를 활용하여 Transformer 및 Text Encoder 구성 요소를 4-bit 또는 8-bit로 양자화하는 구체적인 방법을 제시하고, 각 방식별 메모리 사용량과 추론 시간의 변화를 비교 분석합니다. 이를 통해 개발자들이 제한된 하드웨어 환경에서도 최신 AI 모델을 효과적으로 배포할 수 있는 실질적인 지침을 제공합니다.

HuggingFace헤드라인

Microsoft 와 Hugging Face 협업 확대

Microsoft와 Hugging Face는 Azure AI Foundry를 통해 협력을 대폭 확대하여, 기업 고객들이 200만 개 이상의 방대한 오픈 모델 생태계를 안전하고 쉽게 활용할 수 있도록 지원합니다. 이 새로운 프레임워크는 사용자가 사내 데이터와 결합하여 기술과 데이터를 완전히 통제하는 AI 애플리케이션 및 에이전트를 구축할 수 있게 합니다. 특히, Azure AI Foundry의 Hugging Face Collection에서는 텍스트, 오디오, 이미지를 아우르는 다양한 작업을 수행하는 검증된 모델들을 몇 번의 클릭만으로 배포할 수 있으며, 보안 테스트와 안전한 형식을 통해 기업 환경에 최적화되었습니다.

HuggingFace헤드라인

Falcon-Arabic: 아랍어 언어 모델의 돌파구

Falcon-Arabic은 70억 파라미터 규모의 다국어 언어 모델인 Falcon 3 아키텍처를 기반으로 개발된, 아랍어 NLP 분야의 혁신적인 모델입니다. 이 모델은 일반 지식, 복잡한 추론, 그리고 다양한 아랍어 방언을 포괄적으로 이해하고 생성하는 데 탁월하며, 기존 아랍어 LLM의 성능 한계를 뛰어넘습니다. 개발팀은 토크나이저를 확장하고 임베딩 초기화 전략을 적용하여 모델에 아랍어 전문 지식을 주입한 후, 고품질 원생 데이터셋으로 연속 전 훈련을 진행했습니다. 그 결과, Falcon-Arabic은 주요 아랍어 벤치마크에서 기존의 모든 아랍어 LLM을 능가하는 최첨단 성능을 입증하며 아랍어 AI 분야의 새로운 표준을 제시합니다.

HuggingFace헤드라인

Python Tiny Agents: MCP 기반 약 70 줄 코드로 작동하는 에이전트

본 기술 기사는 Python 기반의 'tiny-agents' 프레임워크를 소개하며, Model Context Protocol (MCP)을 활용하여 LLM이 외부 도구 및 API와 상호작용하는 방식을 표준화했습니다. 이 에이전트는 MCP 서버에 연결되어 웹 검색, 파일 시스템 접근 등 다양한 기능을 수행할 수 있도록 설계되었으며, 사용자는 CLI 명령어를 통해 쉽게 에이전트를 실행하고 강력한 도구 기반의 추론 능력을 경험할 수 있습니다. 또한, 에이전트의 동작 방식과 커스텀 구축 방법을 상세히 설명하며, `agent.json` 파일로 모델, 제공자, 연결 서버를 정의하고, 시스템 프롬프트(`PROMPT.md`)를 통해 행동을 제어하는 방법을 안내합니다.

HuggingFace헤드라인

CodeAgents + 구조: 실행 동작을 수행하는 더 나은 방법

AI 에이전트가 복잡한 작업을 수행하는 방식은 전통적인 JSON 도구 호출에서 실행 가능한 Python 코드를 직접 작성하는 CodeAgent로 진화했습니다. 여기에 한 단계 더 나아가, 사고 과정(thoughts)과 코드 실행을 명시적인 JSON 구조로 강제하여 생성함으로써, 코드의 유연성과 구조화된 출력의 신뢰성을 결합한 새로운 패러다임을 제시합니다. 이 '구조화된 CodeAgent' 접근법은 여러 벤치마크에서 기존 방식 대비 일관되고 높은 성능 향상을 보여주며, 특히 파싱 오류와 같은 구현상의 취약점을 근본적으로 해결합니다.

HuggingFace헤드라인

nanoVLM 에서부터 KV Cache 구현하기

본 기사는 자기회귀(autoregressive) 언어 모델이 텍스트를 생성하는 과정에서 발생하는 계산적 중복성 문제를 다루고, 이를 해결하기 위한 핵심 최적화 기법인 KV Caching을 심층적으로 설명합니다. KV Caching은 이전 단계에서 계산된 Key와 Value 벡터를 저장하고 재사용함으로써, 매 토큰 생성 시 전체 시퀀스를 다시 처리하는 비효율성을 제거합니다. 필자는 실제 작은 코드베이스(nanoVLM)에 이 기법을 처음부터 구현하여 38%의 속도 향상을 달성한 경험과 그 과정을 공유하며, 이는 모든 자기회귀 모델 생성 과정에 적용 가능한 중요한 학습 경험임을 강조합니다.

HuggingFace헤드라인

Holo1: GUI 에이전트 Surfer-H를 구동하는 새로운 GUI 자동화 VLM 패밀리

Holo1은 딥 웹 UI 이해와 정밀한 로컬라이제이션을 위해 설계된 오픈 소스 Action VLM(Vision-Language Model) 패밀리입니다. 이 모델은 Qwen2.5-VL 아키텍처를 기반으로 하며, WebClick과 같은 표준화된 벤치마크에서 높은 정확도를 보여줍니다. Holo1에 의존하는 Surfer-H는 Policy, Localizer, Validator의 모듈식 아키텍처를 갖춘 웹 네이티브 에이전트로, 브라우저만 사용하여 인간처럼 복잡한 웹 작업을 수행할 수 있게 합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.