Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
Hugging Face Blog 277건필터 해제
Harness, Scaffold, 그리고 정확히 이해해야 할 AI Agent 용어들
AI 에이전트 구축 시 혼동하기 쉬운 'Harness'와 'Scaffold' 등 주요 용어의 개념을 정립합니다. 모델을 에이전트로 변환하기 위해 필요한 동작 정의 계층과 인프라의 차이를 실용적인 관점에서 설명합니다.
OlmoEarth v1.1: 더 효율적인 모델 제품군
OlmoEarth v1.1은 기존 v1의 성능을 유지하면서도 연산 비용을 최대 3배까지 절감한 새로운 위성 이미지 분석 모델 제품군입니다. 트랜스포머 아키텍처의 효율성을 높이기 위해 모델 크기와 토큰 시퀀스 길이를 최적화하여, 대규모 원격 탐사 데이터 처리 시 발생하는 높은 비용 문제를 해결하고자 합니다.
Ettin Reranker 제품군 소개
Ettin ModernBERT 인코더를 기반으로 한 6가지 크기의 새로운 Sentence Transformers CrossEncoder 리랭커 제품군이 공개되었습니다. 이 모델들은 증류(distillation) 기법을 통해 학습되었으며, 검색 후 리랭킹(retrieve-then-rerank) 패턴을 통해 검색 정확도와 비용 효율성을 동시에 최적화합니다.
로봇 비디오 생성을 위한 LoRA 및 DoRA 기반 NVIDIA Cosmos Predict 2.5 미세 조정 가이드
NVIDIA Cosmos Predict 2.5 월드 모델을 로봇 조작 도메인에 최적화하기 위한 LoRA 및 DoRA 기반의 매개변수 효율적 미세 조정(PEFT) 가이드를 제공합니다. 실제 로봇 데이터 수집의 비용 문제를 해결하기 위해 미세 조정된 모델로 합성 궤적을 생성하는 방법을 다루며, 단일 GPU 환경에서도 실용적인 학습이 가능하도록 설계되었습니다.

범용 AI 에이전트 성능 측정을 위한 Open Agent Leaderboard 공개
범용 AI 에이전트의 성능을 모델 단위가 아닌 전체 시스템 관점에서 측정하기 위한 'Open Agent Leaderboard'가 공개되었습니다. 이 리더보드는 에이전트가 다양한 도구와 제약 조건이 있는 생소한 환경에서 얼마나 잘 작동하는지(품질)와 실행 비용(비용)을 동시에 평가하여 실제 배포 가치를 판단할 수 있게 합니다.

Transformers 백엔드를 지원하는 PaddleOCR 3.5: OCR 및 문서 파싱 작업 수행
PaddleOCR 3.5는 Hugging Face Transformers를 새로운 추론 백엔드로 지원하여 모델 실행의 유연성을 높였습니다. 이를 통해 개발자는 PP-OCRv5 및 PaddleOCR-VL 1.5와 같은 모델을 Transformers 중심의 생태계에서 더욱 쉽게 활용할 수 있습니다.
Granite Embedding Multilingual R2: 32K 컨텍스트를 지원하는 Open Apache 2.0 다국어 임베딩 — 최고의
Granite Embedding Multilingual R2는 32K 컨텍스트를 지원하는 두 가지 새로운 Apache 2.0 다국어 임베딩 모델을 출시했습니다. 이 모델들은 200개 이상의 언어를 지원하며, 특히 52개 주요 언어와 프로그래밍 코드에 대해 향상된 검색 품질을 제공합니다. 97M 파라미터의 컴팩트 모델과 311M 파라미터의 풀사이즈 모델이 제공되어, 성능과 효율성 사이에서 선택할 수 있습니다.
Continuous Batching에서 비동기성(asynchronicity) 구현하기
본 글은 LLM 추론 성능 향상을 위해 Continuous Batching의 한계점인 동기적(synchronous) 작동 방식을 개선하는 방법을 다룹니다. 기존 방식에서는 GPU 계산과 CPU 준비 작업이 순차적으로 진행되어 유휴 시간이 발생하며, 이는 전체 처리량 손실을 초래합니다. 이를 해결하기 위해 CPU와 GPU 워크로드를 분리하여 병렬로 실행할 수 있는 비동기 배치(asynchronous batching) 구현의 필요성과 기술적 접근 방식을 설명합니다.
열린 미래를 위한 구축 - Google Cloud와의 새로운 파트너십
Hugging Face는 새로운 전략적 파트너십을 통해 Google Cloud와의 협력을 강화하며, 모든 기업이 자신만의 AI를 구축하고 커스터마이징할 수 있는 환경을 제공합니다. 이 파트너십은 Vertex AI, GKE, Cloud Run 등 다양한 Google Cloud 서비스에서 Hugging Face의 방대한 오픈 모델(open models)을 쉽게 배포하고 사용할 수 있도록 지원하며, CDN Gateway와 같은 기술적 개선을 통해 모델 공급망의 안정성과 속도를 대폭 향상시킵니다. 또한, TPU 네이티브 지원 및 강화된 보안 기능을 통합하여 사용자들에게 최고의 성능과 안전성을 제공하는 것을 목표로 합니다.
Reachy Mini - 오늘과 내일의 AI 빌더를 위한 오픈 소스 로봇
Reachy Mini는 인간-로봇 상호작용(HRI), 창의적 코딩, AI 실험을 위해 설계된 오픈 소스 로봇입니다. Python 기반으로 프로그래밍이 가능하며, $299부터 시작하는 가격으로 누구나 접근할 수 있습니다. 이 키트형 로봇은 데스크톱 크기로, 최신 AI 모델을 활용하여 실제 애플리케이션 개발 및 테스트를 할 수 있도록 지원합니다. Reachy Mini는 표현력이 풍부한 움직임과 멀티모달 센싱(카메라, 마이크 등) 기능을 갖추고 있으며, Hugging Face 통합을 통해 오픈 소스 생태계의 이점을 극대화합니다. 또한 모든 하드웨어와 소프트웨어가 오픈 소스로 제공되어 커뮤니티 주도 성장이 가능합니다.
Gradio를 이용한 가시적 워터마킹 (Visible Watermarking)
본 글은 생성형 AI 콘텐츠의 확산으로 인해 중요성이 커진 워터마킹 필요성을 언급하며, Hugging Face가 이를 쉽게 구현할 수 있는 '가시적 워터마킹(Visible Watermarking)' 기능을 Gradio 라이브러리에 추가했음을 소개합니다. 개발자는 단 한 줄의 코드를 사용하여 이미지, 비디오, 텍스트 등 다양한 형식에 워터마크를 적용할 수 있습니다.
SyGra: LLM 및 SLM을 위한 데이터 구축 원스톱 프레임워크
SyGra는 LLM 및 SLM을 위한 데이터셋 생성, 변환, 정렬(Alignment) 과정을 단순화하도록 설계된 로우코드/노코드 프레임워크입니다. 이 프레임워크는 복잡한 파이프라인 구축 대신 사용자가 프롬프트 엔지니어링에 집중할 수 있게 돕습니다. SyGra는 Q&A 데이터셋 생성, DPO를 활용한 모델 정렬, 추론 강화 등 다양한 고급 AI 워크플로우 전반에서 높은 유연성과 확장성을 제공합니다.
HCompany의 HoloTab을 만나보세요. 당신의 AI 브라우저 동반자입니다.
HCompany는 가장 진보된 컴퓨터 사용 AI 모델인 Holo3를 출시하고, 이를 브라우저에서 사용할 수 있는 Chrome 확장 프로그램 'HoloTab'을 공개했습니다. HoloTab은 사용자가 원하는 작업을 설명하기만 하면, 별도의 기술적 설정 없이도 웹사이트 인터페이스 탐색, 필드 채우기, 의사 결정 등의 모든 과정을 자동화합니다. 이 도구는 반복적이거나 시간이 많이 소요되는 온라인 업무(예: 가격 비교, 구인 공고 검색 등)를 녹화하고 루틴으로 저장하여, 사용자가 필요할 때마다 자동으로 처리하게 합니다.

AWS에서의 Foundation Model 학습 및 추론을 위한 빌딩 블록 (Building Blocks)
파운데이션 모델의 성능 확장이 사전 학습을 넘어 사후 학습과 테스트 시간 컴퓨팅으로 진화함에 따라, 이를 뒷받침할 통합 인프라의 중요성이 커지고 있습니다. 본 글은 AWS 인프라와 오픈 소스 소프트웨어(OSS) 스택이 결합된 계층적 아키텍처를 통해 대규모 분산 학습 및 추론을 구현하는 핵심 빌딩 블록을 분석합니다.

EMO: 전문가 혼합(Mixture of Experts)을 이용한 창발적 모듈성 사전 학습
EMO는 인간이 정의한 사전 지식에 의존하지 않고 모듈 구조 자체가 데이터로부터 직접 창발되도록 종단 간(end-to-end)으로 사전 학습된 새로운 전문가 혼합(MoE) 모델입니다. EMO의 핵심은 '모듈성'을 일급 목표로 삼아, 특정 작업이나 도메인에 대해 전체 전문가 중 극히 작은 하위 집합만을 사용하여도 거의 전체 모델 수준의 성능을 유지할 수 있도록 하는 것입니다. 이는 대규모 LLM을 구성 가능한 아키텍처로 변환하여, 필요한 기능만 선택적으로 로드하고 배포함으로써 효율성과 유연성을 혁신적으로 개선합니다.
CyberSecQwen-4B: Why Defensive Cyber Needs Small, Specialized, Locally-Runnable
본 기사는 방어 사이버 보안(Defensive Cyber) 분야에서 대규모 범용 모델(Frontier models)의 한계점을 지적하며, 소형화되고 전문화된 온디바이스 모델의 필요성을 강조합니다. 민감한 내부 데이터 유출 위험, 높은 API 호출 비용, 그리고 에어갭 환경에서의 배포 제약 등은 방어 작업에 치명적입니다. 이에 대응하여 CyberSecQwen-4B는 40억 개의 파라미터로 CWE 분류 및 CVE 매핑 같은 특정 사이버 위협 인텔리전스(CTI) 작업에서 기존의 대형 모델을 능가하는 성능과 뛰어난 배포 용이성을 입증했습니다.
Tiny Agents: an MCP-powered agent in 50 lines of code
본 기사는 Model Context Protocol(MCP)을 활용하여 에이전트 개발의 복잡성을 획기적으로 단순화하는 방법을 소개합니다. MCP는 LLM에 연결할 수 있는 표준 도구 세트를 노출하는 API로, 이를 통해 기존 Inference Client를 확장하여 다양한 외부 기능을 에이전트에 통합할 수 있습니다. 작성자는 이 원리를 바탕으로 TypeScript(JS) 기반의 'Tiny Agent' 코드를 구현했으며, 이 접근 방식은 에이전트가 여러 MCP 서버(예: 파일 시스템, 브라우저)에 연결하여 복잡한 작업을 수행하는 과정을 매우 간결하게 보여줍니다.
MedQA: Fine-Tuning a Clinical AI on AMD ROCm — No CUDA Required
본 기술 기사는 AMD Instinct MI300X GPU와 ROCm 환경을 사용하여 임상 질문-답변 모델(MedQA)을 LoRA 방식으로 미세 조정하는 과정을 상세히 설명합니다. 이 프로젝트의 핵심은 기존 의료 AI 작업이 NVIDIA CUDA에 의존하던 관행을 깨고, 코드 변경이나 커스텀 커널 없이 순수하게 AMD ROCm 환경에서 HuggingFace 생태계(Transformers, PEFT 등)를 활용하여 성공적으로 구현했다는 점입니다. 이를 통해 192GB의 대용량 VRAM을 활용하여 Qwen3-1.7B와 같은 모델을 FP16으로 학습하고, LoRA 기법을 적용해 효율적이고 접근성이 높은 임상 AI 개발 파이프라인을 제시합니다.
Nemotron-Personas-Japan: ソブリン AI のための合成データセット
NVIDIA가 일본 문화적 특성과 인구 통계에 기반한 최초의 오픈 합성 데이터셋 'Nemotron-Personas-Japan'을 공개했습니다. 이 데이터셋은 개인 식별 정보(PII) 없이도 일본 사회를 반영하는 600만 건의 페르소나 데이터를 제공하며, 개발자들이 지역 특화 AI 모델을 구축할 수 있도록 지원합니다. 이는 주권 AI(Sovereign AI) 개발을 촉진하고, 언어 및 문화적 맥락에 맞는 고품질의 학습 데이터 접근성 문제를 해결하는 핵심 기반이 될 것입니다.
Training and Finetuning Sparse Embedding Models with Sentence Transformers
본 기사는 희소 임베딩 모델(Sparse Embedding Models)을 파인튜닝하는 과정과 구성 요소를 심층적으로 다룹니다. 일반적인 밀집 임베딩 모델이 저차원 벡터를 생성하는 것과 달리, 희소 임베딩 모델은 대부분의 값이 0인 고차원 벡터를 생성하며, 이는 각 토큰에 대한 해석 가능성을 제공합니다. 특히 SPLADE와 같은 신경망 기반 희소 모델은 원본 텍스트를 의미적으로 관련된 용어로 자동으로 확장(query/document expansion)하는 능력이 뛰어나며, 이를 통해 검색 및 유사도 계산의 정확도를 높일 수 있습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.