Insights

LeRobot SO-101 팔을 위한 Isaac GR00T N1.5 모델의 후처리 (Fine-tuning) 가이드

본 문서는 NVIDIA의 최신 범용 로봇 모델인 Isaac GR00T N1.5를 저렴한 오픈소스 LeRobot SO-101 팔과 같은 다양한 하드웨어에 성공적으로 적응(Fine-tuning)시키는 방법을 안내하는 가이드입니다. 이 과정은 원격 조작 데이터를 활용하여 특정 임베디먼트와 작업 환경에 모델을 맞춤화하며, `EmbodimentTag` 시스템 덕분에 누구나 쉽게 고급 인간형 추론 및 조작 능력을 자신의 로봇 플랫폼에 적용할 수 있게 합니다. 실제 튜토리얼에서는 SO-101의 테이블 정리(table cleanup) 작업을 예시로 사용하여 데이터셋 준비부터 모델 미세 조정, 그리고 최종 성능 평가까지의 전체 워크플로우를 상세히 설명하고 있습니다.

5월 6일10

Arm 기반 실시간 AI 사운드 생성: 창작의 자유를 위한 개인 도구

본 기사는 Arm 기반 CPU와 오픈소스 생성형 AI 모델(Stable Audio Open)을 결합하여, 외부 연결이나 클라우드 추론 없이도 기기 내에서 실시간으로 고품질 사운드를 생성하는 개인용 앱 개발 과정을 다룹니다. 이 도구는 사용자가 간단한 프롬프트만 입력하면 스튜디오 수준의 `.wav` 파일을 초당 수 초 만에 생성하여 Ableton Live와 같은 DAW 워크플로우에 즉시 통합할 수 있게 합니다. 이 시스템은 Arm CPU의 높은 효율성과 성능을 활용하여, 데이터 프라이버시를 유지하면서도 창작 흐름(creative flow)을 끊지 않고 AI 기반 사운드 디자인 작업을 가능하게 하는 미래 지향적인 솔루션을 제시합니다.

5월 6일12

Training Cluster as a Service - NVIDIA 와의 새로운 협력

Hugging Face와 NVIDIA가 'Training Cluster as a Service'라는 새로운 협력을 통해 전 세계 연구자 및 기업들에게 대규모 GPU 클러스터 접근성을 제공합니다. 이 서비스는 사용자가 필요한 훈련 실행 기간에만 비용을 지불할 수 있는 유연성을 제공하며, NVIDIA DGX Cloud의 최신 아속 컴퓨팅 용량과 Hugging Face의 방대한 개발 리소스를 결합한 완전한 솔루션입니다. 이를 통해 연구자들은 희귀 질환 연구부터 화학 모델링까지 다양한 분야에서 최고 수준의 AI 모델을 구축할 수 있게 되어, 고성능 컴퓨팅 자원에 대한 접근 장벽이 크게 낮아집니다.

5월 6일9

5 분 만에 Hugging Face Kernel Hub 학습

Hugging Face의 새로운 'Kernel Hub'는 모델 성능을 극대화하는 데 필수적인 최적화된 컴퓨팅 커널(low-level code)을 중앙 집중식으로 제공합니다. 기존에는 Triton이나 CUTLASS 같은 라이브러리를 직접 빌드하고 복잡한 의존성을 관리해야 했지만, Kernel Hub를 사용하면 미리 컴파일되고 최적화된 커널을 단 한 줄의 코드로 즉시 다운로드하여 사용할 수 있습니다. 이를 통해 개발자는 FlashAttention과 같은 고급 기능을 환경 설정이나 긴 컴파일 과정 없이 쉽게 통합할 수 있으며, 모델 아키텍처와 로직 구현에 집중하고 배포 복잡성을 획기적으로 줄일 수 있습니다.

Featherless AI가 Hugging Face 인퍼런스 제공자로 추가됨

Featherless AI가 Hugging Face Hub의 공식 인퍼런스 제공자로 추가되어, 사용자들이 모델 페이지에서 서버리스 추론 기능을 확장하고 강화할 수 있게 되었습니다. 이 통합을 통해 사용자들은 DeepSeek, Meta, Google 등 다양한 최신 오픈소스 모델을 지원하는 방대한 카탈로그를 서버리스 가격으로 쉽게 이용할 수 있습니다. 또한, Python 및 JavaScript 클라이언트 SDK에 완벽하게 통합되어 있어 사용 편의성이 높아졌으며, 자체 API 키 또는 Hugging Face 계정을 통한 라우팅 방식 중 선택하여 사용할 수 있습니다.

긴 프롬프트가 다른 요청을 차단하는 방법 - LLM 성능 최적화

LLM의 성능 최적화는 'prefill' 단계(전체 프롬프트 처리)와 'decode' 단계(토큰 생성) 간의 균형을 맞추는 것이 핵심입니다. 특히, 매우 긴 프롬프트를 가진 요청이 들어올 경우, 이 요청이 시스템의 전반적인 처리를 차단하는 병목 현상('prefill-큐 차단')을 일으킵니다. 최근 vLLM 업데이트에서는 짧은 요청들이 긴 프롬프트에 의해 지연되는 문제를 완화하기 위해 '빠른 통로(fast lane)'를 제공하지만, 근본적으로는 전반적인 GPU 자원 관리와 아키텍처 분리가 필요합니다.

5월 6일12

Hugging Face 인퍼런스 제공자 Groq 소개 🔥

Groq이 Hugging Face Hub의 공식 인퍼런스 제공자로 추가되어, 사용자들이 모델 페이지에서 직접 서버리스 추론을 실행할 수 있게 되었습니다. Groq는 LPU(Language Processing Unit)라는 독자적인 하드웨어 시스템을 사용하여 LLM에 대한 매우 빠른 추론 속도와 높은 처리량을 제공합니다. 이제 개발자들은 Python 및 JavaScript 클라이언트 SDK를 통해 다양한 오픈소스 모델을 선택한 인퍼런스 제공자를 쉽게 통합하여 실시간 AI 애플리케이션을 구축할 수 있습니다.

5월 6일12

SGLang 의 Transformers 백엔드 통합

SGLang이 Hugging Face transformers 라이브러리를 백엔드로 공식 통합하여, 개발자들이 기존의 유연한 transformers 생태계를 유지하면서도 고성능 추론 환경을 구축할 수 있게 되었습니다. 이 통합을 통해 SGLang은 자체적으로 지원하지 않는 다양한 커스텀 모델이나 최신 트렌드의 모델(예: Kyutai Helium)까지 자동으로 처리하여, 임베디드 및 프로덕션 환경에서 일관된 고성능 추론 경험을 제공합니다. 특히, SGLang의 핵심 강점인 RadixAttention과 같은 메모리 효율적인 메커니즘을 활용하면서도 transformers의 광범위한 호환성을 확보함으로써, 개발자는 모델 선택의 폭을 넓히고 엔지니어링 오버헤드를 크게 줄일 수 있습니다.

5월 6일7

NVIDIA Llama Nemotron Nano VLM을 Hugging Face Hub에 환영합니다

NVIDIA가 Llama Nemotron Nano VL이라는 최신 다중 모달(multimodal) VLM을 발표하며 Hugging Face Hub에 공개했습니다. 이 모델은 지능형 문서 처리(IDP)와 광학 문자 인식(OCR)의 경계를 확장하여, PDF, 이미지, 표, 차트 등 복잡한 시각적 요소를 높은 정확도로 이해하고 추출할 수 있습니다. 특히 OCRBench v2에서 뛰어난 성능을 보이며, 금융, 의료, 법률 등 다양한 산업의 문서 워크플로우 자동화에 최적화된 솔루션입니다. 이 모델은 Llama-3.1-8B-Instruct와 C-RADIOv2-VLM-H를 기반으로 하며, 고해상도 입력 처리 능력과 그라운딩(Grounding) 기능을 통해 문서의 지역 세부 사항과 전역 컨텍스트를 모두 보존합니다. 또한 2단계 훈련 체제(Pre-training 및 SFT)와 방대한 데이터셋을 활용하여 압도적인 정확도를 달성했습니다.

5월 6일7

Hub 에서 Git LFS 를 Xet 으로 마이그레이션하기

Hub는 Git LFS에서 Xet으로의 대규모 콘텐츠 마이그레이션을 진행하고 있으며, 이는 수십 PB에 달하는 모델 및 데이터셋을 영향을 주지 않고 배경에서 점진적으로 이루어지고 있습니다. 이 과정은 내부 인프라 구성 요소(Git LFS Bridge, 배경 마이그레이션)를 활용하여 사용자 워크플로우 변경 없이 원활하게 진행됩니다. Xet 인식 클라이언트는 콘텐츠 정의 쉐이크를 사용하여 파일을 조각화하고 CAS에 저장하며, 구형 클라이언트의 경우 Git LFS Bridge가 S3에서 재구성된 파일을 제공하는 방식으로 하위 호환성을 유지합니다. 마이그레이션은 웹훅과 오케스트레이터를 통해 관리되며, 이관 작업 포드가 배치 단위로 LFS 파일을 다운로드하고 Xet 콘텐츠 주소형 저장소로 업로드하는 복잡한 과정을 거칩니다.

5월 6일4

OpenAI Privacy Filter 을 활용한 확장 가능한 웹 애플리케이션 구축 방법

본 문서는 OpenAI Privacy Filter와 Gradio의 `gr.Server`를 결합하여 높은 수준의 사용자 경험을 제공하는 확장 가능한 웹 애플리케이션 구축 방법을 설명합니다. 이 아키텍처는 문서에서 PII(개인 식별 정보)를 탐지하고 강조 표시하거나, 이미지에서 민감한 정보를 검열하는 등 복잡한 데이터 처리 기능을 구현할 수 있게 합니다. 특히 `gr.Server`는 단일 큐잉 엔드포인트와 ZeroGPU 할당을 통해 백엔드 모델(Privacy Filter)의 강력함을 유지하면서도, 프론트엔드에서 부드러운 사용자 인터페이스(예: 독서 경험, 편집 가능한 이미지 주석)를 구현할 수 있도록 지원하는 핵심 역할을 합니다.

vLLM V0 에서 V1 로의 전환: 강화학습에서 정확성을 수정하기 전

본 문서는 vLLM의 초기 버전(V0)과 최신 버전(V1) 간의 차이점을 분석하고, 특히 강화학습(RL) 목표를 수정하기 전에 백엔드 동작 패리티를 확보하는 과정을 다룹니다. 연구진은 V1이 V0 참조 결과와 일치하도록 여러 가지 기술적 문제를 해결했는데, 여기에는 처리된 로그 확률(logprobs)의 의미론적 불일치 수정(`processed_logprobs` 사용), 추론 경로 기본값 통일화(prefix caching 및 비동기 스케줄링 등 명시적 설정), 그리고 가중치 업데이트 과정의 동기화가 포함됩니다. 이러한 백엔드 패리티를 확보한 후에야 RL 목표 수준의 변경 사항을 평가할 수 있었습니다.

TRL 에서의 VLM 정렬: MPO, GRPO 등 새로운 방법론 소개

본 기술 기사는 TRL (Transformer Reinforcement Learning) 라이브러리에서 시각 언어 모델(VLM)의 정렬 및 후 훈련(post-train)을 위한 최신 방법론들을 소개합니다. 기존의 SFT와 DPO를 넘어, MPO(혼합 선호 최적화)는 여러 손실 함수를 결합하여 VLM에 적합한 강력한 성능 향상을 제공하며, GRPO(그룹 상대 정책 최적화)는 그룹 단위로 정책을 업데이트하여 보상 노이즈에 강건하고 전반적인 응답 품질을 높입니다. 또한 TRL은 이들 고급 정렬 기법들을 VLM 환경에서 사용할 수 있도록 확장하고, 사용 편의성을 위한 훈련 스크립트와 데모 노트북도 제공합니다.

5월 6일7

🇵🇭 FilBench - LLM 이 타갈로그 (Tagalog), 필리핀어 (Filipino) 및 세부아노 (Cebuano) 를 이해하고 생성할

FilBench는 타갈로그(Tagalog), 필리핀어(Filipino), 세부아노(Cebuano) 등 필리핀 언어에 대한 대규모 언어 모델(LLM)의 성능을 종합적으로 평가하기 위해 개발된 포괄적인 벤치마크입니다. 이 벤치마크는 문화적 지식, 고전 NLP, 독해 이해, 생성 네 가지 주요 카테고리로 구성되어 있으며, 각 영역에서 LLM의 깊이 있는 능력을 측정합니다. 평가 결과에 따르면, 동남아시아 특화(SEA-specific) 모델들이 가장 높은 성능을 보였으나, 여전히 GPT-4o와 같은 최신 클로즈드소스 모델에는 미치지 못했습니다. 하지만 FilBench는 필리핀어/SEA 특화 데이터를 지속적으로 큐레이션하고 파인튜닝하는 노력이 여전히 매우 중요하며, 이 분야의 연구 방향을 제시합니다.

Arc 가상 세포 도전: 입문서

본 기술 기사는 ML 엔지니어에게 생물학적 배경 지식이 부족하더라도 참여할 수 있도록 재구성된 '가상 세포 도전'을 소개합니다. 이 도전을 통해 CRISPR 유전자 침묵과 같은 변형이 세포 전사체에 미치는 영향을 예측하는 모델을 훈련하는 것이 목표입니다. Arc는 약 30만 개의 단일 세포 RNA 시퀀싱 데이터셋을 활용하며, 특히 '기저(basal)' 상태의 제어 세포 집단을 참조점으로 사용하여 침적 효과를 분리해내는 것이 핵심 과제임을 설명합니다. 이를 위해 Arc는 State Transition Model (ST)과 State Embedding Model (SE)로 구성된 트랜스포머 기반 모델 쌍을 개발하여, 변형 전후의 세포 상태 변화를 시뮬레이션하는 강력한 기준선(baseline)을 제시하고 있습니다.

5월 6일10

Hugging Face 생산 인프라를 지원한 세 가지 강력한 알람

Hugging Face는 플랫폼의 안정성과 확장성을 보장하기 위해 설계된 세 가지 핵심 알람 시스템을 소개합니다. 이 알람들은 네트워크 트래픽 부하 모니터링, 비용 최적화 관점에서의 트래픽 패턴 분석, 그리고 코드 설정 오류를 감지하는 추가적인 알림 레이어를 포함합니다. 이러한 강력한 모니터링 및 알람 시스템은 잠재적인 문제를 사전에 식별하고, 인프라의 효율성을 높이며, 커뮤니티가 의존하는 높은 수준의 성능과 가용성을 유지하는 데 결정적인 역할을 했습니다.

NeurIPS 2025 E2LM 경연 대회 발표: 언어 모델의 초기 단계 평가

본 기술 기사는 NeurIPS 2025 E2LM 경연 대회를 소개하며, LLM의 초기 학습 단계(특히 과학적 지식 분야)에서 의미 있는 추론 및 지식을 포착하는 새로운 평가 벤치마크 구축을 목표로 합니다. 참가자들은 Hugging Face Space를 통해 솔루션을 제출하고, '신호 품질 점수', '순위 일관성 점수', '과학적 지식 준수 점수' 세 가지 기준에 가중치를 적용하여 최종 글로벌 점수를 얻게 됩니다. 이 대회는 LLM의 초기 학습 과정에서 기존 벤치마크가 놓쳤던 핵심 신호를 발견하는 데 중점을 두고 있습니다.

5월 6일9

SmolLM3: 작지만 다국어이며 긴 컨텍스트를 이해할 수 있는 모델

SmolLM3는 효율성과 성능의 최적점을 목표로 설계된 3B 규모의 대규모 언어 모델입니다. 이 모델은 Llama-3.2 및 Qwen2.5와 경쟁할 수 있는 뛰어난 성능을 보여주면서도, 다국어 지원(6개 언어)과 최대 128k에 달하는 긴 컨텍스트 처리를 제공합니다. 특히, GQA, NoPE, Intra-Document Masking 등 최신 아키텍처 개선 사항과 함께 단계별 데이터 혼합 전략을 포함한 '완전한 레시피'를 공개하여 모델 구축의 투명성을 높였습니다.

효율적인 멀티모달 데이터 파이프라인

본 기술 기사는 멀티모달 데이터셋을 효율적으로 처리하기 위한 최적화된 데이터 파이프라인 구축 방법을 다룹니다. 기존의 '패딩 지옥' 문제를 해결하기 위해, 단순히 최대 길이에 맞추는 방식(Naive Padding) 대신 Knapsack 문제 접근법을 도입하여 배치 내 낭비되는 토큰 공간을 최소화하는 것이 핵심입니다. 이 과정에서 `torch.utils.data.IterableDataset`과 프로듀서-컨슈머 패턴을 활용하여 동적이고 효율적인 데이터 로딩 시스템을 구축하는 방법을 제시합니다.