Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
Hugging Face Blog 100건필터 해제
Swift 개발자를 위한 Hugging Face 통합 클라이언트, swift-huggingface 출시
swift-huggingface는 Swift 언어 기반의 애플리케이션을 위해 설계된 완벽한 Hugging Face Hub 클라이언트입니다. 기존 Swift 모델 로딩 시 겪었던 느린 다운로드, 재개 불가, Python 생태계와의 캐시 불일치 등의 문제를 근본적으로 해결했습니다. 이 라이브러리는 Robust한 파일 작업(진행률 추적 및 재개 지원), Python과 호환되는 공유 캐시 구조, 그리고 OAuth 2.0 기반의 유연하고 안전한 인증 시스템을 제공하여 개발자 경험을 극대화합니다.
Codex, AI 코딩 에이전트가 주도하는 엔드투엔드 ML 실험 자동화
Hugging Face는 OpenAI의 코딩 에이전트인 Codex를 활용하여 머신러닝(ML) 실험 전 과정을 자동화하고 오픈소싱 모델로 배포하는 방법을 제시합니다. HF Skills 기능을 통해 Codex는 데이터셋 검증, 적절한 하드웨어 할당 (예: 0.6B 모델에 t4-small), 학습 스크립트 관리 및 업데이트, Hugging Face Jobs 제출까지 수행할 수 있습니다. 이는 단순 데모를 넘어 SFT, DPO, RL 등 실제 프로덕션 환경에서 사용되는 다양한 학습 방법을 지원하며, 엔지니어가 실험을 위임하고 보고서를 손쉽
llama.cpp 서버의 모델 관리 기능 도입: 다중 LLM 운영 가이드
llama.cpp는 이제 Ollama과 유사한 강력한 모델 관리 기능을 HTTP 서버에 추가했습니다. `llama-server`를 라우터 모드로 실행하면, 지정된 캐시 또는 로컬 디렉토리에서 GGUF 파일을 자동으로 감지하고 여러 LLM을 동시에 운영할 수 있습니다. 이 시스템은 각 모델을 독립적인 프로세스로 분리하여 안정성을 높였으며, LRU(Least Recently Used) 정책에 따라 메모리를 효율적으로 관리합니다. 개발자는 이를 통해 서버 재시작 없이 다양한 모델 버전의 A/B 테스트나 다중 테넌트 배포를 쉽게 수행할 수
CUGA: 설정 가능한 범용 AI 에이전트의 새로운 지평
CUGA(Configurable Generalist Agent)는 웹 및 API 환경에서 복잡한 다단계 작업을 수행할 수 있도록 설계된 오픈소스 범용 AI 에이전트입니다. 이 에이전트는 플래너-실행기 (planner-executor), 코드 실행 (code-act) 등 최신 에이전트 패턴을 결합하고, 구조화된 계획 및 스마트 변수 관리를 통해 환각(hallucination)을 방지하며 높은 신뢰성을 제공합니다. 특히 Hugging Face Spaces에 통합되어 사용자가 쉽게 접근할 수 있게 되었으며, Langflow와의 연동을 거
Nemotron 3 Nano 평가 표준화: NeMo Evaluator로 투명한 모델 비교하기
NVIDIA가 Nemotron 3 Nano 30B A3B의 평가 과정을 완전히 공개하며, AI 모델 평가의 투명성 표준을 제시했습니다. 개발자들은 이제 NeMo Evaluator 라이브러리를 사용하여 누구나 동일한 설정과 절차로 모델 성능을 재현하고 비교할 수 있습니다. 이 도구는 다양한 벤치마크와 추론 백엔드를 통합하는 오케스트레이션 레이어 역할을 하여, 일관되고 신뢰할 수 있는 평가 파이프라인 구축을 가능하게 합니다.
Transformers v5: 토크나이저 설계 분리 및 모듈화 개선
본 글은 Hugging Face의 `transformers` 라이브러리가 버전 5에서 토크나이저(Tokenizer) 구조를 근본적으로 개편한 내용을 다룹니다. 이전에는 토크나이저 설계와 학습된 어휘집(vocabulary)이 결합되어 사용하기 어려웠으나, v5부터는 이 둘을 분리하여 사용자가 토크나이저 아키텍처를 직접 검사하고 커스터마이징하며 처음부터 훈련시킬 수 있게 되었습니다. 이는 마치 PyTorch가 신경망 구조와 가중치를 분리하는 방식과 유사합니다. 또한, `tokenizers` 라이브러리를 통해 Rust 기반의 빠르고 효율
LLM 안전성 및 적대적 방어 강화를 위한 AprielGuard 소개
AprielGuard는 최신 거대 언어 모델(LLM) 시스템의 안전성과 적대적 방어 능력을 높이기 위해 설계된 8B 매개변수 규모의 통합 가드레일 모델입니다. 기존의 단편적인 안전 필터링 방식의 한계를 극복하고, 독성 콘텐츠, 허위 정보 확산 등 16가지 범주의 안전 위험과 프롬프트 주입(Prompt Injection), 탈옥(Jailbreaks) 같은 광범위한 적대적 공격을 감지합니다. 특히 멀티턴 대화, 복잡한 추론 과정(Chain-of-Thought), 도구 사용이 포함된 에이전트 워크플로우까지 아우르는 통합적인 검증 체계를제
DGX Spark와 Reachy Mini로 구현하는 개인화된 AI 에이전트 구축 가이드
본 글은 NVIDIA가 CES 2026에서 공개한 최신 개방형 모델(Nemotron, Isaac GR00T 등)을 활용하여 개인화된 AI 에이전트를 구축하는 방법을 안내합니다. 특히, 강력한 컴퓨팅 플랫폼인 DGX Spark와 로봇 하드웨어 Reachy Mini를 결합하여 사용자가 직접 대화하고 데이터를 처리할 수 있는 '사무실 R2D2' 같은 실물 에이전트 시스템을 구현하는 과정을 다룹니다. NeMo Agent Toolkit과 같은 프레임워크를 사용하여 추론(Reasoning), 시각(Vision), 행동(Action) 기능을 결
하이브리드 아키텍처 기반, 대규모 아랍어 언어 모델 Falcon-H1-Arabic 공개
Falcon 연구팀이 기존의 한계를 뛰어넘은 최신 아랍어 대규모 언어 모델(LLM) 패밀리인 Falcon-H1-Arabic를 공개했습니다. 이 모델은 State Space Models (Mamba)와 Transformer 어텐션을 결합한 하이브리드 아키텍처를 채택하여, 장문 이해 및 추론 능력을 극대화했습니다. 3B, 7B, 34B 세 가지 크기로 제공되며, 특히 컨텍스트 창(Context Window)을 최대 256K 토큰까지 확장하여 법률 분석, 의학 기록 처리 등 방대한 양의 장문 문서 처리가 가능해졌습니다. 또한, 아랍어의
NVIDIA, 물리 AI를 위한 고급 추론 능력 갖춘 'Cosmos Reason 2' 공개
NVIDIA가 개방형(open) 추론 비전-언어 모델(VLM)의 최신 버전인 Cosmos Reason 2를 출시하며 물리적 인공지능(Physical AI) 분야에 혁신을 가져왔습니다. 이 모델은 기존 VLM들이 어려움을 겪던 다단계 계획 수립, 불확실성 처리 등 인간적인 추론 능력을 강화했습니다. 특히 시공간 이해력과 정밀도를 높였으며, 2B 및 8B 파라미터 크기로 에지부터 클라우드까지 유연하게 배포 가능합니다. 자율주행차(AV) 영상 분석, 로봇 계획 수립 등 실제 산업 응용 사례에서 뛰어난 성능을 입증하며 개발자들에게 강력한
오픈 응답 표준 (Open Responses): 에이전트 시대의 새로운 추론 인터페이스
기존 챗봇 기반 API(Chat Completion)는 장기적인 계획과 행동이 필요한 에이전트 워크플로우에 한계가 있습니다. Open Responses는 OpenAI의 Responses API를 기반으로 구축된 개방형 추론 표준입니다. 이 표준은 텍스트, 이미지, JSON 구조화 출력 생성뿐만 아니라 비디오 콘텐츠 제작 및 제공자 측에서의 자율적인 에이전트 루프 실행을 일관되게 지원합니다. 특히 기존 방식에서 제한적이었던 '추론 과정(reasoning)'의 가시성을 높여 원본 추적(raw reasoning traces), 암호화된(
실시간 상호작용 비디오 확산 모델 Waypoint-1 소개
Waypoint-1은 Overworld에서 개발한 실시간 상호작용 비디오 확산(Diffusion) 모델입니다. 텍스트, 마우스 움직임, 키보드 입력을 통해 제어할 수 있어 사용자가 마치 가상 세계를 직접 탐험하는 듯한 경험을 제공합니다. 기존의 월드 모델들이 단순히 사전 학습된 모델에 제한적인 제어 입력으로 파인튜닝되는 방식과 달리, Waypoint-1은 처음부터 상호작용적 경험에 초점을 맞춰 훈련되었습니다. 특히 마우스 움직임이나 키보드 입력을 지연 없이(zero latency) 자유롭게 반영하며, 소비자급 하드웨어에서도 높은 프
트랜스포머 모델을 mlx-lm으로 포팅하는 방법: Skill과 테스트 하네스
코드 에이전트의 등장으로 오픈 소스 기여 방식에 근본적인 변화가 요구되고 있습니다. 본 글은 트랜스포머(transformers) 라이브러리에 있는 언어 모델을 mlx-lm 프레임워크로 빠르고 정확하게 포팅할 수 있도록 'Skill'과 테스트 하네스를 개발한 과정을 설명합니다. 이 도구는 단순히 자동화에 그치지 않고, 기여자(Contributor)와 리뷰어(Reviewer) 모두에게 실질적인 도움을 주도록 설계되었으며, 모델 아키텍처의 핵심 디테일(예: RoPE 설정, 데이터 타입 추론)까지 검증하여 고품질의 PR 생성을 지원합니다.
EcomRLVE-GYM: 이커머스 대화 에이전트를 위한 적응형 검증 환경
본 글은 기존의 RL(Reinforcement Learning) 프레임워크를 이커머스 도메인으로 확장한 EcomRLVE-GYM을 소개합니다. EcomRLVE-GYM은 단순 텍스트 추론이 아닌, 실제 에이전트가 도구를 사용하고 세계 상태를 변경해야 하는 다단계(multi-turn), 에이전트 기반 대화 시나리오에 초점을 맞춥니다. 이 환경은 제품 검색, 장바구니 구성, 반품 처리 등 8가지 검증 가능한 환경을 제공하며, 알고리즘적으로 평가되는 보상과 12축의 적응형 난이도 커리큘럼을 통해 실제 상업적 과제 수행 능력을 체계적으로 학습
AI 시대 사이버 보안: 개방성이 구조적 우위를 만드는 이유
최근 Mythos와 Project Glasswing 같은 시스템이 등장하며 AI 기반 사이버 보안의 새로운 장을 열고 있습니다. 이 글은 LLM(대규모 언어 모델)을 활용하여 소프트웨어 취약점을 탐지하고 패치하는 '시스템' 자체의 중요성을 강조합니다. 특히, 폐쇄적인 코드베이스는 단일 실패 지점(single point of failure)이 되어 보안 위협에 취약해지고 있습니다. 따라서 오픈 소스 생태계와 개방형 도구는 방어자에게 공격자와 동등한 수준의 역량을 제공하여, AI 에이전트를 활용하되 인간의 통제 하에 운영하는 '준자율적
아랍어 LLM 평가의 새로운 기준: QIMMA 🚀
기존 아랍어 NLP 평가는 파편화되어 있고 검증되지 않은 경우가 많습니다. 저희는 이러한 문제를 해결하기 위해 'QIMMA'를 구축했습니다. QIMMA는 기존의 여러 아랍어 벤치마크(14개 소스, 109개 서브셋)를 통합하여 52,000개 이상의 샘플로 구성된 통일된 평가 스위트입니다. 가장 중요한 특징은 모델 평가 전에 '품질 검증 파이프라인'을 거친다는 점입니다. 이 파이프라인은 Qwen3-235B와 DeepSeek-V3 같은 최신 LLM 2개 모델의 자동 평가(10점 루브릭)와 원어민 전문가의 수동 검토를 결합하여, 기존 벤치
Jetson Orin Nano에서 구동하는 Gemma 4 VLA 데모 구현 가이드
본 문서는 NVIDIA Jetson Orin Nano Super 환경에서 대규모 언어 모델(LLM)인 Gemma 4를 활용한 시각-언어-청각(VLA: Vision-Language-Audio) 데모를 구현하는 상세 가이드입니다. 사용자는 마이크 입력(STT)을 통해 질문하고, Gemma 4가 웹캠 이미지 분석 및 추론을 거쳐 답변하며, 최종적으로 TTS 엔진(Kokoro)을 통해 음성으로 출력되는 전체 파이프라인을 구축합니다. 특히 이 모든 과정이 Jetson Orin Nano의 제한된 리소스 환경에서 원활하게 작동하는 것이 핵심이며
차분 트랜스포머 V2(DIFF V2): 디코딩 효율과 안정성을 높인 차세대 아키텍처
Microsoft가 제안하는 Differential Transformer V2 (DIFF V2)는 기존의 표준 트랜스포머 구조를 개선하여, 특히 LLM 디코딩 단계에서 메모리 효율성과 계산 안정성을 극대화한 아키텍처입니다. DIFF V2는 쿼리(Query) 헤드 수를 늘리면서도 키-값(Key-Value) 헤드 수는 유지하고, 차분 연산(Differential Operation)을 통해 전체적인 파라미터 및 FLOPs를 줄였습니다. 이 설계 덕분에 표준 트랜스포머와 유사한 디코딩 속도를 달성하면서도, 기존 Softmax의 한계였던 '
딥시크(DeepSeek) 모멘트 이후 1년: 중국 AI 생태계의 변화와 오픈소스 트렌드
본 글은 DeepSeek R1 모델 출시 후 1년간 글로벌 AI 및 오픈소스 생태계가 어떻게 변했는지 분석합니다. 특히 중국 AI 산업의 성장을 중심으로, 기술적 장벽(advanced reasoning), 채택 장벽(MIT 라이선스 기반 상용화), 심리적 장벽 세 가지를 낮추면서 오픈소스가 단순한 연구 도구를 넘어 재현 가능한 엔지니어링 기반으로 자리 잡았음을 강조합니다. 경쟁 구도는 모델 성능 비교에서 시스템 레벨의 통합 능력 경쟁으로 이동했으며, 주요 기업들의 오픈소스 기여도와 빈도가 폭발적으로 증가했습니다.
산업 현장 특화 AI 에이전트 평가 벤치마크: AssetOpsBench 소개
기존의 AI 벤치마크가 코딩이나 웹 탐색 같은 단일 작업에 치중되어 산업 현장의 복잡성을 반영하지 못하는 한계를 극복하기 위해, AssetOpsBench를 개발했습니다. 이 프레임워크는 냉각기(chillers)와 공조 장치(air handling units) 등의 자산 운영을 평가하며, 230만 개의 센서 데이터 포인트와 140개 이상의 시나리오를 포함합니다. 특히 단순 성공/실패 여부를 넘어, 다중 에이전트 협업, 실패 모드 분석, 그리고 불완전한 데이터 환경에서의 추론 능력을 중점적으로 평가하여 실제 산업 현장의 안전 및 운영적
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.