Insights

LeRobot v0.5.0 출시: 휴머노이드부터 VLA 모델까지 로봇 학습의 모든 것을 확장하다

LeRobot v0.5.0은 지원 하드웨어 범위를 대폭 확장하고, 최신 AI 정책을 도입하며, 전체 시스템 성능을 개선한 주요 업데이트입니다. 가장 큰 변화는 Unitree G1 휴머노이드 전신 제어(Whole-Body Control)를 완벽하게 통합했다는 점입니다. 또한, Pi0-FAST (자가회귀적 Vision-Language-Action 모델), Wall-X (Qwen2.5-VL 기반 VLA), X-VLA (Florence-2 기반 VLA) 등 6가지 새로운 정책을 추가하여 로봇 학습의 다양성을 높였습니다. 실시간 추론 성능을

roboticsvlahumanoid

transformerssequence parallelismlong context

Ulysses Sequence Parallelism: 장문 컨텍스트 학습의 혁신적 해법

Ulysses Sequence Parallelism (SP)은 트랜스포머 모델의 핵심인 어텐션(Attention) 계산을 여러 GPU에 분산시켜 수백만 토큰 길이의 컨텍스트 학습을 가능하게 하는 기술입니다. 기존 방식이 메모리 한계로 인해 긴 시퀀스를 처리하기 어려웠으나, Ulysses는 시퀀스 차원과 어텐션 헤드(Attention Head)를 동시에 파티셔닝하여 효율적인 병렬 처리를 구현합니다. Hugging Face Accelerate와 TRL의 SFTTrainer 등 주요 라이브러리에 통합되어 실제 장문 컨텍스트 학습 워크플로

rlreinforcement learningasync

비동기 RL 학습 아키텍처 분석: 16개 오픈소스 라이브러리 비교

대규모 강화학습(RL) 모델을 효율적으로 학습시키기 위해서는 동기식(synchronous) 구조의 한계를 극복해야 합니다. 기존 방식은 데이터 생성(모델 추론, inference) 단계가 전체 시간을 지배하여 GPU 자원이 유휴 상태로 방치되는 병목 현상이 발생합니다. 본 글은 이 문제를 해결하기 위해 '추론'과 '학습'을 분리하고, 롤아웃 버퍼를 통해 비동기적으로 연결하는 아키텍처 패턴을 분석했습니다. 16개의 오픈소스 라이브러리를 조사한 결과, Ray가 오케스트레이션에서 강점을 보였으며, NCCL 브로드캐스트가 가중치 전송의 주

Holotron-12B: 고성능 컴퓨터 사용 에이전트 모델 출시

H Company가 NVIDIA의 Nemotron-Nano-2 VL 모델을 기반으로 개발한 멀티모달 컴퓨터 사용 에이전트 모델, Holotron-12B를 공개했습니다. 이 모델은 기존의 정적 비전이나 단순 명령어 수행에 초점을 맞춘 모델들과 달리, 복잡하고 상호작용적인 환경에서 '인지(Perceive), 결정(Decide), 행동(Act)'하는 에이전트 정책 모델을 목표로 합니다. Holotron-12B의 핵심 강점은 추론 효율성입니다. 하이브리드 State-Space Model (SSM)과 Attention 메커니즘을 결합한 독

multimodalagenticssm

오픈소스 AI 생태계 현황: 2026년 봄 분석

본 보고서는 오픈 소스 AI 분야의 급격한 성장을 다룹니다. Hugging Face 사용자는 1,300만 명에 달하고 공개 모델은 2백만 개 이상으로 증가했습니다. 이는 단순한 관심 증대를 넘어, 사용자들이 파인튜닝(fine-tuned) 모델이나 어댑터 같은 파생 결과물을 적극적으로 생성하는 참여형 생태계로 변화했음을 의미합니다. 생태계는 여전히 집중되어 있지만, 미국과 중국을 중심으로 글로벌 역학 관계가 크게 변했습니다. 특히 개발 주체 측면에서 독립 개발자 및 소규모 집단이 전체 다운로드의 상당 부분을 차지하며 혁신 확산에 핵심

open-sourceaihuggingface

하루 만에 도메인 특화 임베딩 모델 구축 가이드

본 글은 일반 목적의 임베딩 모델을 특정 도메인(Domain)에 최적화하는 방법을 소개합니다. 별도의 수동 라벨링 없이, NVIDIA의 파이프라인과 LLM을 활용하여 합성 데이터(Synthetic Data)를 자동으로 생성할 수 있습니다. 이 과정을 통해 얻은 데이터를 사용하여 임베딩 모델을 미세 조정(Fine-tuning)하면 검색 성능(Recall@10, NDCG@10 등)에서 10% 이상의 개선 효과를 확인할 수 있습니다. 특히 'Hard Negative Mining' 기법을 적용하여 단순히 관련 없는 데이터가 아닌, 오답처럼

embeddingfinetuningrag

voice agentevaconversational ai

음성 에이전트 평가의 새로운 기준: EVA 프레임워크 소개

기존 음성 에이전트 평가는 '정확도(Accuracy)'와 '대화 경험(Experience)'을 분리하여 다루는 한계가 있었습니다. EVA(End-to-End Evaluation) 프레임워크는 이를 통합적으로 평가하는 최초의 방법론입니다. EVA는 실제 봇 간 대화 환경에서 에이전트의 성능을 측정하며, 단순히 작업 성공 여부뿐만 아니라 자연스러움, 간결성 등 음성 상호작용 경험까지 종합 점수(EVA-A, EVA-X)로 산출합니다. 이 프레임워크는 항공 예약 변경 등의 시나리오를 기반으로 구축되었으며, 에이전트의 정확도와 사용자 경험은

OpenClaw 에이전트 재활성화: Hugging Face와 로컬 모델 활용법

OpenClaw, Pi 또는 Open Code 에이전트의 기능을 복구해야 할 때, 두 가지 주요 방법을 사용할 수 있습니다. 첫째는 Hugging Face Inference Providers를 통해 오픈 모델을 사용하는 것이며, 이는 가장 빠르고 쉬운 방법입니다. 둘째는 Llama.cpp 등을 이용해 로컬 환경에 직접 모델을 구동하는 것입니다. 로컬 방식은 완벽한 개인 정보 보호와 API 비용 제로, 그리고 무제한 실험 기회를 제공합니다. 사용자는 자신의 에이전트에게 도움을 요청하여 이 과정을 시작할 수 있으며, 각 방식의 장단점을

openclawhuggingfacellm

4월 23일2

TRL v1.0 출시: 끊임없이 변화하는 LLM 분야를 위한 라이브러리 설계

TRL(Transformer Reinforcement Learning)은 75가지가 넘는 다양한 포스트 트레이닝(Post-training) 방법을 구현하며, LLM 분야의 급변하는 특성을 반영하여 v1.0을 출시했습니다. 과거 PPO, DPO, ORPO 등 여러 방법론이 등장하면서 '보상 모델 (Reward Model)'이나 '값 모델 (Value Model)' 같은 핵심 구성 요소들이 선택적이거나 아예 불필요해지는 등 패러다임 자체가 변화했습니다. TRL은 이러한 불안정한 환경에 대응하기 위해, 안정성을 보장하는 코어(Stable

llmpost-trainingrl

4월 23일2

protein_aicodon_optimizationtransformer

mRNA 모델 개발: 25종에 걸친 단백질 AI 파이프라인 구축

OpenMed는 치료용 단백질 개념을 발현 가능한 DNA 서열로 변환하는 엔드투엔드(end-to-end) AI 파이프라인을 구축했습니다. 이 파이프라인은 ①단백질 구조 예측, ②아미노산 서열 설계, ③코돈 최적화의 세 단계로 구성됩니다. 특히 코돈 최적화 부분에 집중하여 여러 트랜스포머(transformer) 아키텍처를 비교한 결과, CodonRoBERTa-large-v2가 가장 우수한 성능을 보였습니다. 이를 25종의 생물종으로 확장하고 총 4개의 모델을 개발하는 데 성공했으며, 이는 오픈 소스 프로젝트 중 독보적인 성과입니다.

multimodaldocument-understandingllm

문서 이해 특화 모델: Granite 4.0 3B Vision 소개

IBM의 Granite 4.0 3B Vision은 기업 문서 처리에 최적화된 소형 멀티모달 모델입니다. 이 모델은 복잡한 테이블 구조 추출, 차트 이해 및 시맨틱 키-값 쌍(KVP) 추출 등 전문적인 문서 분석 작업을 수행할 수 있습니다. 특히, ChartNet이라는 자체 개발 데이터셋과 DeepStack Injection 아키텍처를 통해 시각적 패턴, 숫자 데이터, 자연어 추론을 결합하여 높은 정확도를 달성했습니다. 또한 LoRA 어댑터 형태로 제공되어 텍스트 전용 워크로드와도 원활하게 통합할 수 있어 기업 환경에 매우 실용적이며

gradioserverfastapiwebdev

Gradio Server로 커스텀 프론트엔드와 강력한 백엔드를 결합하는 방법

기존에는 Gradio 컴포넌트를 사용하거나, 완전히 별도의 웹 애플리케이션을 구축해야 했습니다. 하지만 새로운 `gradio.Server`를 통해 이 두 가지 제약을 모두 해결했습니다. `gradio.Server`는 FastAPI의 강력한 기능을 상속받아 커스텀 라우팅, 미들웨어, 파일 업로드 등 모든 백엔드 기능을 제공합니다. 여기에 Gradio 특유의 API 엔진(요청 큐잉, 동시성 관리, SSE 스트리밍)과 `gradio_client` 호환성을 결합했습니다. 이를 통해 사용자는 React나 Svelte 같은 원하는 프론트엔드를

transformervision-languagesegmentation

Falcon Perception: 단일 트랜스포머로 개방형 시각 인식 구현

Falcon Perception은 0.6B 파라미터 크기의 초기 융합(early-fusion) 트랜스포머 모델입니다. 이 모델은 자연어 프롬프트로부터 이미지 패치와 텍스트를 하나의 시퀀스로 처리하여 개방형 어휘 기반의 객체 인식 및 분할을 수행합니다. 기존 모듈식 파이프라인 방식의 한계를 극복하기 위해, Falcon Perception은 단일 트랜스포머 백본(backbone)을 사용하여 이미지 패치와 텍스트를 처음부터 공유 공간에서 처리합니다. 특히 하이브리드 어텐션 마스크를 적용하여 시각적 전역 문맥과 순차적인 예측 기능을 동시에

온디바이스 AI의 새 기준, 개방형 멀티모달 모델 Gemma 4 출시

Gemma 4는 Apache 2 라이선스로 완전히 개방된 최첨단 멀티모달 인텔리전스 모델입니다. 오디오, 이미지, 텍스트 입력을 모두 지원하며, 온디바이스(on-device) 환경에서도 구동 가능하도록 설계되었습니다. 이 모델은 이전 Gemma 시리즈의 장점을 계승하면서도 변형 비율을 고려한 개선된 이미지 인코더와 효율적인 Per-Layer Embeddings (PLE), Shared KV Cache 같은 아키텍처 최적화를 적용했습니다. 2.3B부터 31B까지 다양한 크기로 제공되며, 특히 4B 활성 파라미터만으로 높은 성능을 내는

gemmamultimodalllm

safetensorspytorchhuggingface

Safetensors, PyTorch Foundation 합류로 생태계 표준화 가속

모델 가중치 공유 포맷인 Safetensors가 PyTorch Foundation에 공식적으로 합류했습니다. 이는 DeepSpeed, vLLM 등과 함께 Linux Foundation 산하에서 관리되며, 모델 안전성과 커뮤니티 거버넌스 측면에서 큰 의미를 갖습니다. Safetensors는 초기 Pickle 기반 포맷의 보안 위험성을 해결하기 위해 탄생했으며, JSON 헤더와 원시 텐서 데이터 구조로 단순화되었습니다. 이 덕분에 '제로-카피 로딩(Zero-copy loading)'과 '지연 로딩(Lazy loading)'이 가능해져

multimodalityembeddingreranker

멀티모달 임베딩 및 리랭커 모델 활용 가이드

Sentence Transformers 라이브러리가 v5.4 업데이트를 통해 텍스트 외에 이미지, 오디오, 비디오 등 다양한 모달리티(multimodality)를 지원합니다. 멀티모달 임베딩 모델은 서로 다른 형태의 데이터를 공통된 임베딩 공간으로 매핑하여, 텍스트 검색과 이미지 문서 비교 같은 크로스-모달 유사성 계산을 가능하게 합니다. 또한, 멀티모달 리랭커는 혼합 모달리티 쌍의 관련성을 점수화할 수 있어, 시각적 문서 검색이나 다중 모달 RAG 파이프라인 구축에 활용됩니다.

waypointworld modelgenerative ai

Waypoint-1.5: 일상 GPU에서 구현하는 고화질 인터랙티브 월드 모델

Overworld의 최신 실시간 비디오 월드 모델인 Waypoint-1.5가 공개되었습니다. 이 버전은 단순히 높은 시각적 충실도(visual fidelity)를 넘어, 사용자가 실제로 상호작용하며 탐험할 수 있는 '경험'에 초점을 맞췄습니다. Waypoint-1.5는 성능이 좋은 하드웨어(RTX 3090~5090 등)에서는 최대 720p/60 FPS로, 더 넓은 소비자급 장치(노트북, Apple Silicon Mac 등)를 위해 최적화된 360p 모델을 제공합니다. 특히 Waypoint-1 대비 100배에 달하는 데이터로 학습되었

ai_agentbenchmarkreasoning

AI 에이전트의 추론 및 도구 사용 능력 평가, VAKRA 분석

VAKRA는 AI 에이전트가 실제 기업 환경과 유사한 복잡한 워크플로우를 얼마나 잘 수행하는지 평가하기 위해 개발된 실행 가능한 벤치마크입니다. 기존의 단일 스킬 테스트와 달리, VAKRA는 API 호출과 비정형 데이터 검색을 결합한 다단계 추론 능력을 측정합니다. 이 벤치마크는 62개 도메인에 걸쳐 8,000개 이상의 로컬 API를 활용하며, 에이전트가 복잡한 작업을 성공적으로 완료하는지 검증합니다. 논문에서는 VAKRA의 네 가지 주요 역량(API 체이닝, 대시보드 API 사용, 다단계 추론 등)을 분석하고, 모델들이 어떤 지점

4월 23일3