본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

Hugging Face Blog 277필터 해제

HuggingFace헤드라인

Falcon-H1: 하이브리드 헤드 언어 모델 가족이 효율성과 성능을 재정의함

Falcon-H1은 0.5B부터 34B까지 다양한 규모의 오픈소스 언어 모델 가족으로, 기존 트랜스포머 기반 어텐션 메커니즘과 State Space Model (SSM)을 결합한 하이브리드 아키텍처를 채택했습니다. 이 혁신적인 설계는 빠른 추론 속도와 낮은 메모리 사용량을 유지하면서 최상위 성능을 달성할 수 있게 합니다. 모델은 에지 디바이스부터 대규모 배포까지 활용 가능한 광범위한 스케일과 튜닝 버전을 제공하며, 최대 256K 컨텍스트 길이 지원, 다국어 능력, 그리고 STEM 분야에서의 강력한 성능을 자랑합니다.

5월 7일8
HuggingFace헤드라인

GPU 후퇴 없는 효율성: TRL 에서 Co-located vLLM 을 통한 효율성 해제

본 기술 기사는 LLM 훈련(특히 온라인 학습 알고리즘인 GRPO)과 추론 과정의 효율성을 극대화하는 방법을 다룹니다. 기존에는 TRL이 vLLM을 별도의 서버 프로세스로 실행하여 GPU 자원 비효율성, 대기 시간 및 높은 비용 문제를 야기했습니다. 이를 해결하기 위해 TRL은 vLLM을 훈련 코드와 동일한 GPU 내에서 '콜로케이션(Co-located)' 방식으로 통합하여, 두 작업이 같은 리소스를 공유하며 효율적으로 전환할 수 있게 되었습니다.

5월 7일10
HuggingFace헤드라인

SmolVLA: 소비자 하드웨어에서 실행되는 컴팩트 오픈소스 비전-언어-행동 모델 소개

SmolVLA는 소비자 하드웨어에서 실행 가능하도록 설계된 컴팩트하고 오픈소스인 비전-언어-행동(VLA) 모델입니다. 이 모델은 공개 커뮤니티 데이터셋만을 사용하여 훈련되었으며, 대규모 독점 모델에 의존하던 VLA 분야의 접근성 문제를 해결합니다. SmolVLA는 효율적인 아키텍처 설계와 비동기 추론 스택을 통해 기존의 거대 모델들과 동등하거나 그 이상의 성능을 보이면서도 응답 속도를 획기적으로 개선했습니다.

5월 7일7
HuggingFace헤드라인

Parquet Content-Defined Chunking

Parquet Content-Defined Chunking (CDC) 기능이 PyArrow와 Pandas에 도입되어 Hugging Face Xet과 같은 콘텐츠 주소형 저장 시스템에서 Parquet 파일의 효율적인 중복 제거를 가능하게 합니다. CDC는 데이터 변경분만 업로드하거나 다운로드함으로써 데이터 전송 및 저장 비용을 획기적으로 줄여줍니다. 이 기능을 사용하려면 `use_content_defined_chunking=True` 인자를 전달하여 구현할 수 있습니다.

5월 7일6
HuggingFace헤드라인

제로부터 GPU: 프로덕션용 CUDA 커널 구축 및 확장 가이드

이 가이드는 'kernel-builder' 라이브러리를 활용하여 GPU 환경에 최적화된 프로덕션급 CUDA 커널을 구축하고 배포하는 방법을 안내합니다. 단순히 코드를 작성하는 것을 넘어, PyTorch의 네이티브 연산자로 등록하고 `torch.compile`과 같은 핵심 생태계 기능과 통합함으로써 성능과 유지보수성을 극대화하는 엔지니어링 전략에 초점을 맞춥니다. 구체적으로는 프로젝트 구조(build.toml, csrc/, flake.nix)를 정의하고, CUDA 소스 코드를 작성한 후, PyTorch의 `torch.ops` 네임스페이스 아래에서 연산자를 등록하여 모든 환경에서 재현 가능하고 포터블하며 최적화된 커널을 완성하는 과정을 다룹니다.

5월 7일6
HuggingFace헤드라인

Apriel-H1: 효율적 추론 모델 정제 (Distillation) 의 놀라운 열쇠

본 기사는 대규모 언어 모델(LLM)의 효율성을 확보하기 위해 '정제(Distillation)' 기술을 적용한 Apriel-H1 모델에 대한 연구 결과를 다룹니다. 핵심은 단순히 데이터를 정제하는 것이 아니라, 강력한 교사 모델(Teacher Model)이 가진 **다단계 추론 패턴**과 같은 구체적이고 취약한 능력을 보존하는 데 있습니다. 저자들은 이 능력을 효과적으로 전달하기 위해 '교사의 SFT 데이터셋에서 추출된 고품질 추론 트레이스'를 사용하고, 정제 과정에서는 역방향 KL 발산(reverse KL divergence)을 적용하여 모델의 높은 확신도를 학습시키는 것이 중요함을 강조합니다.

5월 7일8
HuggingFace헤드라인

Qwen-3의 채팅 템플릿이 우리에게 가르쳐 주는 4 가지

본 기사는 Alibaba Cloud의 최신 Qwen-3 모델이 이전 버전에 비해 얼마나 정교하고 지능적인 채팅 템플릿을 갖추었는지 분석합니다. Qwen-3는 `enable_thinking` 플래그를 통해 사고(Chain-of-Thought) 과정을 선택적으로 활성화/비활성화할 수 있게 했으며, 'rolling checkpoint' 시스템을 도입하여 다단계 도구 호출 시 관련 컨텍스트를 효율적으로 유지하고 토큰 낭비를 줄입니다. 또한, 타입 검사를 강화하여 JSON 직렬화 오류 위험을 낮추고, 기본 시스템 프롬프트 없이도 정확한 역할을 수행하는 등 에이전트 워크플로의 신뢰성과 유연성을 크게 향상시켰습니다.

5월 7일7
HuggingFace헤드라인

HELMET 소개: 장기 컨텍스트 언어 모델의 포괄적 평가

HELMET(How to Evaluate Long-Context Models Effectively and Thoroughly)는 장기 컨텍스트 언어 모델(LCLMs)을 포괄적이고 신뢰성 있게 평가하기 위해 설계된 새로운 벤치마크입니다. 기존의 Perplexity나 단순 합성 작업(예: needle-in-a-haystack)은 실제 세계 성능과 상관관계가 낮고, 기존 벤치마크들은 커버리지 부족, 길이 제한, 신뢰할 수 없는 지표 등의 한계를 가집니다. HELMET은 다양한 응용 분야를 포괄하고, 입력 길이와 복잡성을 제어 가능하며, 기반 모델(base model)과 명령어 튜닝 모델 모두에 적용 가능한 평가 환경을 제공하여 LCLMs의 진정한 능력을 측정하는 것을 목표로 합니다.

5월 7일6
HuggingFace헤드라인

그라디오가 단순한 UI 라이브러리가 아닌 17 가지 이유

Gradio는 단순한 UI 라이브러리를 넘어, 머신 러닝 모델과 상호작용하는 강력한 프레임워크입니다. 이 프레임워크는 자동화된 API 엔드포인트 생성, 클라이언트 SDK 제공, 그리고 'API 레코더' 기능을 통해 개발 과정의 효율성을 극대화합니다. 또한, 서버 사이 렌더링(SSR) 도입으로 성능과 SEO를 개선하고, 고급 큐잉 시스템 및 스트리밍 기능을 내장하여 대규모 사용자 트래픽과 GPU 집약적 계산을 안정적으로 처리할 수 있게 합니다.

5월 7일8
HuggingFace헤드라인

AutoRound 소개: LLM 및 VLM 전용 고급 양자화 방법

AutoRound는 인텔이 개발한 가중치 기반의 후학습 양자화(PTQ) 방법으로, 최소한의 정확도 손실로 INT2부터 INT8까지의 저비트 양자화를 가능하게 합니다. 이 방법은 부호화된 경사 하강법을 사용하여 가중치 반올림과 클립 범위를 동시에 최적화하며, 특히 2비트 정밀도와 같은 극저비트 시나리오에서 높은 성능 우위를 보여줍니다. AutoRound는 LLM 및 VLM 모두를 지원하며, Qwen, LLaMA 등 주요 아키텍처를 포괄합니다. 또한 GPTQ/AWQ와 같은 기존 양자화 형식으로 내보내기 기능을 제공하고, 'auto-round-best'와 'auto-round-light' 두 가지 레시피를 통해 사용자가 원하는 정확도와 속도를 선택할 수 있습니다.

5월 7일8
HuggingFace헤드라인

100 만 Gradio 사용자를 향한 여정!

Gradio는 5년 전 스탠퍼드 연구자들이 웹 인터페이스를 통해 컴퓨터 비전 모델을 데모할 수 있도록 출시된 간단한 Python 라이브러리입니다. 현재 매달 100만 명 이상의 개발자가 AI 웹 애플리케이션 구축 및 공유에 사용하는 핵심 도구로 성장했습니다. 이 성공은 '좋은 기본 구조(primitives)'에 집중하고, 사용자들이 앱을 쉽게 공유할 수 있는 '바이러스성' 기능을 제공하며, 기계 학습(ML) 웹 앱이라는 명확한 틈새 시장에 초점을 맞춘 전략 덕분입니다.

5월 7일10
HuggingFace헤드라인

Hugging Face 의 AI 인프라를 위한 비밀 관리 확장

Hugging Face는 AWS 단일 환경에서 Azure, GCP를 포함하는 멀티 클라우드 환경으로 진화함에 따라, 비밀(secrets) 관리의 중앙 집중화 및 보안 강화를 필요로 했습니다. 기존의 복잡하고 무거운 솔루션 대신 Infisical을 채택하여 개발자 친화적인 워크플로우와 강력한 멀티 클라우드 추상화를 확보했습니다. 이 마이그레이션을 통해 Okta 기반의 세밀한 RBAC를 구현하고, Kubernetes 오퍼레이터를 활용해 비밀 업데이트 및 애플리케이션 재시작 과정을 자동화함으로써 보안성과 개발 생산성을 동시에 크게 향상시켰습니다.

5월 7일7
HuggingFace헤드라인

Open R1: 업데이트 #4

DeepSeek에서 R1 추론 모델 기반인 DeepSeek-V3의 업데이트 버전(Open R1)이 출시되었습니다. 이 모델은 GPT-4.5와 동등하거나 Claude Sonnet 3.7보다 강력한 성능을 보여주며, MMLU-Pro (+5.3), GPQA (+9.3), AIME (+19.8) 등 주요 벤치마크에서 큰 폭의 개선을 이루었습니다. 특히 프론트엔드 웹 개발, 중국어 작문/검색 능력, 함수 호출 정확도 등 특정 영역에 초점을 맞춰 성능이 향상되었으며, 사용자는 Hugging Face Inference Providers, TGI, SGLang, Unsloth 등을 통해 이 모델을 쉽게 실험하고 배포할 수 있습니다.

5월 7일9
HuggingFace헤드라인

효율적인 요청 큐잉 - LLM 성능 최적화

본 기사는 LLM 추론 엔진(vLLM 등)의 성능 최적화와 공정한 사용자 경험 제공에 필요한 고급 스케줄링 전략을 다룹니다. GPU 효율성을 위해 요청을 배치 처리하는 백엔드 큐가 필수적이지만, 이로 인해 특정 사용자가 과도하게 많은 요청을 보내면 다른 사용자들이 불필요하게 지연되는 문제가 발생합니다. 따라서 LLM-Server와 같은 프론트 스케줄러 계층에서 사용자별 우선순위 및 공정성을 관리하고, 백엔드 큐 길이를 모니터링하여 새로운 사용자의 대기 시간을 최소화하는 것이 핵심입니다.

5월 7일9
HuggingFace헤드라인

🚀 Intel Gaudi 기반 TGI 로 LLM 추론 가속화

Hugging Face의 Text Generation Inference (TGI)가 Intel Gaudi 하드웨어 지원 기능을 공식적으로 통합하여 LLM 추론 배포의 유연성과 효율성을 크게 향상시켰습니다. 이전에는 별도의 포크(fork)를 사용해야 했으나, 이제 TGI의 다중 백엔드 아키텍처를 통해 Gaudi를 직접 지원하며, 이는 Gaudi1부터 Gaudi3까지 Intel의 전체 라인업을 커버합니다. 이 통합은 Llama 3.1, Mixtral 등 주요 모델에 대한 프로덕션급 기능을 제공하며, 비용 효율성과 다양한 하드웨어 옵션을 사용자에게 제시합니다.

5월 7일10
HuggingFace헤드라인

NLP 코스가 LLM 코스로 진화합니다

Hugging Face는 AI 민주화 사명 강화를 위해 기존 NLP 코스를 'The LLM course'로 대폭 업그레이드합니다. 이 업데이트를 통해 LLM 미세 조정, 추론 모델 구축 등 최신 트렌드를 다루며, 동시에 분류나 NER 같은 고전적이고 실용적인 NLP 작업의 중요성도 유지할 것입니다. 앞으로는 Hugging Face 라이브러리뿐만 아니라 다양한 오픈소스 도구와 협력하여 학생들이 현업에서 가장 유용한 지식과 코딩 연습을 할 수 있도록 커뮤니티 중심의 학습 자료를 제공하는 데 집중할 계획입니다.

5월 7일7
HuggingFace헤드라인

Hugging Face 와 Cloudflare 가 FastRTC 를 통해 실시간 음성 및 비디오를 원활하게 구현하기 위해 파트너십을 맺음

Hugging Face와 Cloudflare가 파트너십을 맺고 FastRTC를 통해 실시간 음성 및 비디오 스트리밍 기능을 제공합니다. 이 통합은 Hugging Face의 간편한 개발 접근 방식과 Cloudflare의 글로벌 TURN 네트워크를 결합하여, AI 개발자들이 복잡한 인프라 구축 없이 전 세계적으로 빠르고 신뢰할 수 있는 WebRTC 애플리케이션을 만들 수 있도록 돕습니다.

5월 7일8
HuggingFace헤드라인

Visual Salamandra: 다중 모달 이해의 경계 확장

Visual Salamandra는 70억 파라미터의 기반 모델 위에 구축된 다중 모달 대규모 언어 모델(LLM)로, 이미지와 비디오를 포함한 다양한 시각적 입력과 텍스트 명령을 통합적으로 이해하고 응답할 수 있도록 설계되었습니다. 이 모델은 Google의 SigLIP 인코더와 Late-Fusion 아키텍처를 활용하여 Vision-Language Alignment를 강화했으며, VQA, OCR, 문서 이해 등 광범위한 다중 모달 작업을 수행합니다. 개발 과정에서 4단계에 걸친 체계적인 훈련(프로젝터 사전 학습, 고품질 비전 사전 학습, 명령어 튜닝, 전체 다중 모달 튜닝)을 거쳤으며, 특히 유럽 언어 다양성을 강조하는 Multilingual Instruction-Tuned Framework를 통해 포용성과 성능을 동시에 확보했습니다.

5월 7일6
HuggingFace헤드라인

4M 모델 스캔 완료: Protect AI 와 Hugging Face 6 개월

Protect AI와 Hugging Face는 2024년 10월부터 파트너십을 맺고 Guardian 스캐닝 기술을 통해 ML 모델 보안을 강화하고 있습니다. Protect AI의 Guardian은 기존 위협 탐지 기능에 더해, 파일 시스템 쓰기, Joblib 코드 실행, TensorFlow 구조적 백도어, Llamafile 악성코드 실행 등 4가지 새로운 모듈을 추가했습니다. 이로써 Hugging Face 사용자는 플랫폼 내에서 실시간 보안 알림과 포괄적인 취약점 보고서를 받아 모델 통합 시 안전성을 높일 수 있게 되었습니다.

5월 7일8
HuggingFace헤드라인

Hugging Face, Pollen Robotics 인수 및 오픈소스 로봇 판매 시작 🤖

AI 개발 플랫폼인 Hugging Face가 오픈소스 로봇 및 하드웨어를 전문으로 하는 Pollen Robotics를 인수하며, AI와 물리적 세계를 연결하는 새로운 시대를 열고 있습니다. 이번 인수를 통해 Hugging Face는 단순한 소프트웨어 허브를 넘어, Reachy 2와 같은 실제 작동하는 인간형 로봇과 SO-100 로봇 팔 등 오픈소스 하드웨어를 제공하게 되었습니다. 이는 AI 기술의 접근성을 민주화하고, 취미 사용자부터 기업까지 모두가 로봇 공학을 활용할 수 있는 생태계를 구축하려는 비전을 보여줍니다.

5월 7일9

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.