본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

Hugging Face Blog 277필터 해제

HuggingFace헤드라인

비디오 생성을 위한 훌륭한 데이터셋 구축하기

본 기술 기사는 비디오 생성 모델을 미세 조정하기 위해 자체 데이터셋을 구축하는 과정을 안내하며, 이를 위한 개발 중인 툴링 파이프라인을 소개합니다. 이 파이프라인은 `yt-dlp`를 이용한 다운로드부터 시작하여, 'Video to Scenes' 스크립트를 통해 긴 비디오를 짧은 클립으로 분할하고, 워터마크 감지(LAION-5B), 미학 점수 예측, NSFW 콘텐츠 검사 등 다단계의 정교한 필터링을 적용합니다. 또한 Florence-2와 같은 모델을 활용하여 캡션, 객체 인식, OCR 등의 메타데이터를 추출함으로써 고품질의 커스텀 비디오 데이터셋 구축 방법을 제시합니다.

5월 7일5
HuggingFace헤드라인

SigLIP 2: 더 나은 다국어 비전 언어 인코더

구글이 다국어 비전-언어 인코더인 SigLIP 2를 출시했습니다. 이 모델은 기존 SigLIP의 대조적 손실(contrastive loss)을 시그모이드 손실(sigmoid loss)로 확장하고, 위치 감지 및 로컬 세맨틱스 개선을 위한 여러 추가적인 훈련 목적을 통합하여 성능을 크게 향상시켰습니다. 특히, 동적 해상도 변형인 NaFlex를 도입하여 다양한 비율과 해상도의 다운스트림 작업에 유연하게 적용할 수 있는 것이 핵심입니다.

5월 7일5
HuggingFace헤드라인

새로운 세 가지 서버리스 추론 제공자 소개: Hyperbolic, Nebius AI Studio, Novita 🔥

본 기술 기사는 Hugging Face 플랫폼에 세 가지 새로운 서버리스 추론 제공자(Hyperbolic, Nebius AI Studio, Novita)가 추가되었음을 발표합니다. 사용자는 이제 사용자 계정 설정에서 개별 API 키를 설정하고 선호도에 따라 제공자를 정렬할 수 있습니다. 추론 호출은 커스텀 키를 사용하여 직접 제공자에게 요청을 보내거나, Hugging Face(HF)를 통해 라우팅하는 두 가지 모드를 지원하며, 이를 통해 다양한 모델과 비용 관리 옵션을 제공합니다.

5월 7일6
HuggingFace헤드라인

Hub 에 Fireworks.ai 환영 🎆

Fireworks.ai가 Hugging Face Hub의 공식 지원 Inference Provider로 합류했습니다. 이를 통해 사용자들은 HF 생태계 전반에서 번개 속도의 서버리스 추론을 더욱 쉽게 이용할 수 있게 되었습니다. 이제 DeepSeek-R1, Mistral-Small-24B 등 다양한 인기 모델들을 Fireworks.ai를 통해 서버리스 방식으로 실행할 수 있으며, `huggingface_hub` 라이브러리나 cURL 명령어를 사용하여 통합적으로 접근하는 방법을 안내하고 있습니다.

5월 7일11
HuggingFace헤드라인

PaliGemma 2 Mix - 구글의 새로운 지시 명령 시각 언어 모델

구글이 PaliGemma 2 Mix라는 새로운 시각 언어 모델(VLM)을 출시했으며, 이는 OCR, 긴/짧은 캡션 생성 등 다양한 시각 작업에 맞게 미세 조정되었습니다. 이 모델은 단순히 채팅 기능을 제공하기보다, 하위 작업에서 더 잘 학습할 수 있도록 설계된 사전 학습 체크포인트를 제공하는 데 중점을 둡니다. 사용자는 개방형 프롬프트와 특정 작업 접두사(예: `caption`, `ocr`, `answer`)를 사용하여 이미지 질문 답변, 문서 이해, 객체 감지 등 다양한 전문 작업을 수행할 수 있습니다.

5월 7일6
HuggingFace헤드라인

SmolVLM2: 모든 기기에서 비디오 이해를 실현하다

SmolVLM2는 거대한 컴퓨팅 자원을 요구하는 기존의 비디오 이해 모델 패러다임을 전환하여, 스마트폰부터 서버까지 모든 기기에서 실행 가능한 효율적인 경량화 비디오 언어 모델입니다. 이 프로젝트는 256M, 500M, 2.2B 세 가지 크기의 모델을 제공하며, 특히 메모리 효율성 대비 뛰어난 성능으로 Video-MME와 같은 과학적 벤치마크에서 선두를 달리고 있습니다. 개발자들은 MLX 및 Python API를 통해 즉시 접근할 수 있으며, 이를 활용하여 로컬 기기 기반의 비디오 분석 앱(예: 아이폰 앱), 지능형 미디어 플레이어 통합, 장시간 영상 요약 도구 등 다양한 실용적인 애플리케이션을 구축할 수 있습니다.

5월 7일6
HuggingFace헤드라인

Aya Vision: 다국어 멀티모달리티의 경계를 확장하는 심층 분석

Aya Vision은 Cohere For AI가 개발한 오픈 웨이트 다국어 멀티모달 비전-언어 모델(VLM) 가족으로, 23개 언어에 걸친 강력한 언어 및 시각 이해 능력을 제공합니다. 이 모델은 합성 어노테이션, 번역/재구성 등을 통해 데이터 규모를 확장하고, 고해상도 이미지 처리를 위해 동적 리사이징과 Pixel Shuffle 다운샘플링 기법을 적용했습니다. Aya Vision 8B와 32B는 경쟁사 대비 뛰어난 성능을 보여주며, 연구 커뮤니티에 오픈 웨이트로 공개되어 다국어 멀티모달 AI 발전에 기여합니다.

5월 7일8
HuggingFace헤드라인

FastRTC: Python 의 실시간 통신 라이브러리

최근 OpenAI와 Google 등에서 라이브 멀티모달 API가 폭발적으로 성장함에 따라, 실시간 오디오/비디오 AI 애플리케이션 구축의 어려움이 대두되었습니다. 이에 'FastRTC'라는 Python 라이브러리가 출시되었으며, 이는 개발자가 WebRTC 기반의 실시간 오디오 및 비디오 AI 앱을 쉽게 만들 수 있도록 설계되었습니다. FastRTC는 자동 음성 감지(Turn Taking), Gradio UI 내장, 무료 전화 호출 기능(`fastphone()`), 그리고 FastAPI 통합 등 강력한 기능을 제공하여, 사용자는 복잡한 스트리밍 인프라 대신 응답 로직 자체에만 집중할 수 있게 합니다.

5월 7일6
HuggingFace헤드라인

HuggingFace, IISc 협력으로 인도의 다양한 언어 모델 구축 가속화

Hugging Face와 IISc/ARTPARK의 파트너십으로 인도의 방대한 언어적 다양성을 포괄하는 오픈소스 멀티모달 데이터셋 'Vaani'가 구축되고 있습니다. 이 프로젝트는 773개 구에서 수집된 15만 시간 이상의 음성 및 전사 데이터를 포함하며, 주류 언어뿐 아니라 원격 지역의 방언까지 아우르는 독보적인 규모와 지리적 대표성을 자랑합니다. Vaani 데이터셋은 STT/TTS 모델 미세 조정, 발화자 식별, 언어 식별 등 다양한 AI 애플리케이션 개발에 활용될 수 있으며, 인도 전역을 커버하는 포용적이고 견고한 기초 음성 모델 구축의 핵심 자원이 될 것입니다.

5월 7일5
HuggingFace헤드라인

Arize Phoenix 를 사용하여 에이전트 추적 및 평가하기

본 기술 기사는 Arize Phoenix를 활용하여 AI 에이전트의 행동을 추적(tracing)하고 성능을 평가(evaluation)하는 방법을 안내합니다. 에이전트가 어떤 단계를 거쳐 의사결정을 하는지 실시간으로 관찰할 수 있게 해주는 중앙 집중식 플랫폼인 Phoenix는 OpenTelemetry와 OpenInference를 통해 구현됩니다. 또한, LLM-as-a-judge 기법을 사용하여 검색 도구의 응답 관련성 등 에이전트의 성능을 정량적으로 평가하는 방법까지 다룹니다.

5월 7일7
HuggingFace헤드라인

Hugging Face 와 JFrog 가 AI 보안 투명성 강화에 협력

Hugging Face는 JFrog와 파트너십을 맺고 Hugging Face Hub의 보안을 강화합니다. 이번 협력을 통해 JFrog의 강력한 스캐닝 기능을 통합하여, 모델 가중치에서 발생할 수 있는 임의 코드 실행(RCE)과 같은 잠재적인 악성 코드를 탐지하고 투명성을 높입니다. 이 기능은 모든 공개 모델 저장소에 자동으로 적용되어 커뮤니티가 안전하게 AI 모델을 공유하도록 돕습니다.

5월 7일10
HuggingFace헤드라인

Open R1: 업데이트 #3

본 기술 기사는 코드 추론 능력을 테스트하기 위한 새로운 고품질 데이터셋과 모델을 소개합니다. 특히 CodeForces와 국제 정보학 올림피아드(IOI)의 난이도 높은 문제를 활용하여, 10만 개의 샘플을 포함하는 'CodeForces-CoTs' 및 IOI 전용 데이터셋을 구축했습니다. 이를 기반으로 Claude 3.7 Sonnet 같은 폐쇄형 모델보다 우수한 성능을 보이는 오픈 웨이트 코드 모델인 'OlympicCoder'를 개발하고 공개합니다.

5월 7일8
HuggingFace헤드라인

LeRobot goes to driving school: 세계 최대 오픈소스 자차용 데이터셋

LeRobot 팀에서 발표한 L2D(Learning to Drive) 데이터셋은 독일의 30개 도시에서 수집된 90TB 이상의 초대형 오픈소스 자율주행 데이터셋입니다. 이 데이터셋은 HD 카메라 6대, GPS/IMU, CAN 인터페이스를 포함하는 다중 모달 데이터를 제공하며, 단순한 주행 기록을 넘어 자연어 지시와 미래 웨이포인트가 결합된 '에피소드' 단위로 구성되어 있습니다. L2D의 가장 큰 특징은 '전문가 정책(최적 주행)'과 '학생 정책(실수 포함 학습 과정)'이라는 두 가지 관점의 데이터를 모두 담고 있어, 자율주행 시스템이 단순한 경로 추종을 넘어 복잡하고 현실적인 운전 상황에서의 의사결정 능력을 훈련할 수 있도록 설계되었습니다.

5월 7일8
HuggingFace헤드라인

Xet이 Hugging Face Hub에 상용화되었습니다

Hugging Face는 Xet 스토리지를 Hugging Face Hub에 상용화하며 AI 빌더들이 거대 모델과 데이터셋을 더욱 효율적으로 관리하고 협업할 수 있도록 지원합니다. 기존 LFS(Large File Storage)가 파일 단위로 중복 제거 및 리비전을 생성하는 방식의 한계를 극복하기 위해, Xet은 콘텐츠 정의된 청킹(CDC)을 사용하여 바이트 수준에서 중복을 제거하고 변경된 데이터 조각만 전송할 수 있게 합니다. 이 마이그레이션 과정은 4.5TB 규모의 저장소를 성공적으로 전환했으며, 시스템 안정성과 성능 향상을 입증했습니다.

5월 7일8
HuggingFace헤드라인

Sentence Transformers 를 활용한 Reranker 모델 학습 및 Fine-tuning

본 기사는 Reranker 모델을 효과적으로 학습하고 미세 조정(Fine-tuning)하는 방법을 포괄적으로 다룹니다. Reranker는 쿼리와 문서 쌍의 관련성을 평가하는 Cross Encoder 아키텍처를 사용하며, 이는 일반적인 임베딩 모델보다 더 높은 성능을 보일 수 있습니다. 기사는 데이터셋, 손실 함수, 학습 인자, 평가기 등 Fine-tuning에 필요한 핵심 구성 요소들을 설명하고, 도메인 특화 데이터를 활용하여 범용 모델의 한계를 뛰어넘는 강력한 맞춤형 Reranker를 구축하는 방법을 제시합니다.

5월 7일10
HuggingFace헤드라인

Open R1: 로컬에서 OlympicCoder 를 사용하는 방법

본 기사는 오픈소스 코딩 보조 도구인 Open R1의 발전으로 인해 상용 AI 서비스의 매력이 감소하고 있음을 지적하며, 로컬 환경에서 강력한 성능을 보이는 OlympicCoder 7B 모델을 사용하는 방법을 안내합니다. 독자들은 LM Studio를 통해 양자화된(quantized) OlympicCoder 7B 모델을 다운로드 및 실행하고, VS Code와 Continue 확장 프로그램을 연결하여 IDE 내에서 코드 완성, 생성, 설명 등 다양한 AI 코딩 기능을 활용할 수 있습니다.

5월 7일8
HuggingFace헤드라인

NVIDIA 의 GTC 2025 발표: 물리 AI 개발자를 위한 새로운 오픈 모델 및 데이터셋

NVIDIA가 GTC 2025에서 물리 AI 개발자를 위한 혁신적인 오픈 모델과 데이터셋을 발표했습니다. 주요 내용으로는 가상 세계 장면 생성에 높은 제어력을 제공하는 'Cosmos Transfer'와 로봇 훈련용 대규모 데이터를 담은 'Physical AI Dataset'이 있습니다. 또한, 인간형 로봇의 추론 및 조작 기술을 위한 최초의 오픈 파운데이션 모델인 'Isaac GR00T N1'도 공개되어, 자율 시스템 개발에 새로운 지평을 열었습니다.

5월 7일9
HuggingFace헤드라인

AI 정책@🤗: 백악관 AI 행동 계획 RFI에 대한 답변

본 문서는 백악관의 AI 행동 계획 RFI에 대한 답변으로, 개방형(오픈소스) AI 개발 접근법이 성능, 투명성, 경제적 효율성 측면에서 상업적 API 기반 솔루션보다 우수함을 주장합니다. 오픈 가중치 모델과 오픈 인프라를 활용하는 것이 국가 차원의 AI 발전 및 채택에 필수적이며, 특히 의료와 같은 고위험 환경에서는 완전한 통제와 투명성을 제공하는 개방형 시스템이 보안 및 신뢰성 측면에서 가장 중요하다고 강조합니다.

5월 7일10
HuggingFace헤드라인

Gradio 의 새로운 Dataframe 소개

Gradio의 데이터프레임 컴포넌트(`gr.Dataframe`)에 대규모 업데이트가 이루어졌습니다. 이번 업데이트는 70개 이상의 버그 수정과 기능 개선을 포함하며, 사용자 경험(UX)과 기능을 크게 향상시켰습니다. 주요 개선 사항으로는 다중 셀 선택 및 복사 기능, `pinned_columns`를 통한 중요 열 고정, 전장 모드 지원, 그리고 스크롤 이동 가능 등입니다. 또한, `static_columns`와 강력한 검색/필터링 기능을 추가하여 데이터 시각화 및 상호작용성을 극대화했습니다. 개발자들은 이 업데이트된 컴포넌트를 통해 더욱 직관적이고 강력하게 데이터를 다루는 인터랙티브 앱을 만들 수 있습니다.

5월 7일9
HuggingFace헤드라인

Hugging Face 에서 Llama 4 Maverick & Scout 환영

Meta가 Llama 4 Maverick와 Scout라는 강력한 원생적 멀티모달 모델을 Hugging Face 생태계에 출시하며 AI 분야의 중요한 도약을 알렸습니다. 이 두 모델은 각각 대규모(Maverick) 및 효율성(Scout)에 초점을 맞추었으며, 최대 40조 토큰으로 훈련되어 200개 언어와 멀티모달 기능을 지원합니다. 특히 Scout는 온-더-플라이 양자화를 통해 접근성을 높였고, 두 모델 모두 Hugging Face의 `transformers` 및 TGI를 완벽하게 통합하여 프로덕션 환경에서의 사용이 용이합니다.

5월 7일10

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.