Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
Hugging Face Blog 100건필터 해제
GPT-OSS 모델의 에이전트 기반 강화학습(RL) 훈련 방법론 분석
본 글은 오픈소스 거대 언어 모델(LLM)인 GPT-OSS를 에이전트 기반 강화학습(RL) 환경에 적용하는 실질적인 방법론을 제시합니다. 특히, 복잡한 다단계 작업 수행 능력을 갖춘 AI 시스템 구축을 목표로 하며, 인기 RL 프레임워크인 verl을 활용했습니다. 핵심 과제는 GPT-OSS의 MoE (Mixture of Experts) 아키텍처가 야기하는 on-policy PPO 훈련 중 발생하는 중요도 샘플링(Importance Sampling) 비율 불일치 문제를 해결하는 것이었습니다. 이 문제는 두 개의 순방향 패스(Dual-
에미리트 방언(Emirati Dialect) 기반 아랍어 LLM 평가 벤치마크 'Alyah' 공개
기존의 아랍어 대규모 언어 모델(LLM) 벤치마크는 주로 현대 표준 아랍어(Modern Standard Arabic, MSA)에 집중되어 있어 일상생활에서 사용되는 지역 방언을 평가하는 데 한계가 있었습니다. 본 글은 이러한 격차를 해소하기 위해 에미리트 중심의 새로운 벤치마크 'Alyah'를 소개합니다. Alyah는 원어민 수집 기반으로 총 1,173개의 샘플로 구성되어 있으며, 단순한 어휘 지식 측정 대신 문화적 맥락, 화용론적 사용(pragmatic usage), 그리고 방언 특유의 미묘한 의미 해석 능력을 평가하는 데 초점을
중국 오픈소스 AI 생태계의 진화: 아키텍처와 하드웨어 선택 분석
본 글은 2025년 'DeepSeek Moment' 이후 중국 오픈소스 AI 생태계의 변화를 심층적으로 다룹니다. 주요 트렌드는 모델 아키텍처가 Mixture-of-Experts (MoE)로 수렴하고, 범용성을 위해 멀티모달(Multimodal) 및 에이전트 기반 시스템으로 확장하는 것입니다. 또한, 성능 중심을 넘어 '지속 가능한 운영'과 '최적의 비용 효율성'에 초점을 맞추고 있습니다. 특히 Apache 2.0 같은 개방형 라이선스 채택과 Huawei Ascend, Cambricon 등 국내 하드웨어 지원 강화는 중국 AI 생태
CUDA 커널 작성을 위한 에이전트 스킬 개발 및 모델 성능 향상 방법
본 글은 'upskill'이라는 새로운 도구를 활용하여 대규모 언어 모델(LLM)의 능력을 특정 고난도 작업에 맞게 강화하는 방법을 다룹니다. 특히, 복잡한 CUDA 커널 작성과 같은 전문 영역에서 에이전트 스킬을 생성하고 평가하는 과정을 보여줍니다. 이 프로세스는 LLM에게 파일 기반의 '스킬'이라는 형태로 지식을 주입하여, 소형 모델(open models)도 고성능 작업을 수행할 수 있도록 비용 효율적으로 활용 가능하게 합니다. 핵심은 단순히 스킬을 만드는 것을 넘어, `upskill eval` 등을 통해 스킬 적용 전후의 성능
Daggr 소개: 코드로 워크플로우를 정의하고 시각적으로 검사하는 방법
AI 애플리케이션 개발에서 여러 모델이나 처리 단계를 연결(chaining)할 때 발생하는 디버깅의 어려움을 해결한 도구입니다. Daggr는 코드로 워크플로우를 정의하면서도 시각적인 캔버스 인터페이스를 제공하여, 전체 파이프라인을 재실행하지 않고도 특정 노드의 중간 결과를 검사하고 개별 단계를 수정할 수 있게 합니다. Gradio Spaces와의 통합이 뛰어나며, `GradioNode`, `FnNode`, `InferenceNode` 세 가지 유형의 노드를 지원합니다.
텍스트-이미지 모델 훈련 설계: Ablation 연구를 통한 교훈
본 글은 텍스트-이미지(Text-to-Image) 기반의 대규모 파운데이션 모델을 처음부터 효율적으로 학습시키는 과정을 다룬 두 번째 시리즈입니다. 기존 아키텍처 논의를 넘어, 실제 모델 성능 향상에 결정적인 영향을 미친 '훈련 설계' 요소들에 초점을 맞춥니다. 연구진은 다양한 최신 훈련 기법(예: Representation Alignment, 추가 손실 함수)을 실험적으로 검증하고, 각 방법론이 수렴 속도와 표현 학습 능력에 미치는 영향을 분석합니다. 이 보고서는 단순한 기술 나열이 아닌, 기준점(Baseline) 대비 성능 개선
중국 오픈소스 AI 생태계의 진화: DeepSeek 이후의 흐름과 미래 전략
본 보고서는 2025년 초 'DeepSeek 모멘트'를 기점으로 중국 오픈소스 AI 생태계가 어떻게 진화하고 있는지를 분석합니다. Alibaba, Tencent, ByteDance 등 주요 기업들은 모델 공개를 넘어 클라우드, 하드웨어, 애플리케이션을 통합하는 전략적 접근 방식을 취하며 오픈소스를 핵심 성장 동력으로 삼고 있습니다. 특히 Qwen은 113k 이상의 파생 모델과 20만 개가 넘는 리포지토리를 보유하며 일반 AI 기반(Foundation Model)의 역할을 공고히 했으며, Baidu와 같은 기존 폐쇄형 모델 중심 기업
Holo2-235B-A22B: UI 현지화(Localization) 분야의 새로운 SOTA 모델
H Company가 대규모 UI 현지화 모델인 Holo2-235B-A22B Preview를 공개했습니다. 이 모델은 기존의 까다로운 GUI 기반 벤치마크에서 새로운 SOTA(State-of-the-Art) 기록을 세웠습니다. 특히, '에이전트적 현지화 (Agentic Localization)' 기능을 통해 반복적인 예측 정제 과정을 거치며 정확도를 높일 수 있습니다. 이 기능은 모든 Holo2 모델 크기에서 10~20%의 상대적 성능 향상을 가져옵니다. 또한, 대규모 학습을 위해 SkyPilot과 Kubernetes(k8s)를 통합
커뮤니티 기반 평가 시스템 도입: 모델 성능 검증의 투명성 강화
Hugging Face Hub가 커뮤니티 주도의 분산형(decentralized) 평가 보고 시스템을 도입합니다. 기존의 블랙박스 리더보드에 대한 신뢰 부족 문제를 해결하기 위해, 모든 사용자가 Pull Request (PR)를 통해 모델 및 벤치마크 점수를 투명하게 제출할 수 있게 됩니다. 이 시스템은 재현 가능한(reproducible) 평가 사양(eval spec)을 기반으로 하며, 모델 개발자뿐만 아니라 커뮤니티 전체가 검증된 지표를 공유하고 추적할 수 있도록 합니다. 이는 AI 모델의 실제 성능과 벤치마크 점수 간의 격차를
ServiceNow SyGra Studio: LLM 워크플로우를 시각적으로 구축하고 관리하는 방법
SyGra Studio는 복잡한 대규모 언어 모델(LLM) 기반의 데이터 파이프라인을 코딩 없이 시각적으로 설계하고 실행할 수 있는 통합 개발 환경입니다. OpenAI, Azure OpenAI 등 다양한 모델과 Hugging Face/ServiceNow 데이터를 연결하여 프롬프트 엔지니어링부터 구조화된 출력 정의까지 한 곳에서 처리합니다. 워크플로우를 직관적인 노드 기반 인터페이스로 구축하며, 실시간 실행 모니터링, 토큰 비용 추적, 디버깅 기능 등을 제공하여 신뢰성 높은 AI 애플리케이션 개발 속도를 혁신적으로 높여줍니다.
Transformers.js v4 출시: WebGPU 가속 및 Node/Bun 환경 지원 강화
huggingface에서 대규모 언어 모델(LLM)을 브라우저나 서버 환경에서 구동하는 JavaScript 라이브러리인 Transformers.js의 메이저 업데이트 버전 4가 출시되었습니다. 핵심 변화는 C++로 재작성된 WebGPU Runtime 채택으로, 성능과 호환성이 크게 향상되었습니다. 이제 Node.js, Bun, Deno 같은 서버 측 환경에서도 GPU 가속 모델을 사용할 수 있으며, BERT 기반 임베딩 모델의 경우 최대 4배의 속도 향상을 경험할 수 있습니다. 또한, 빌드 시스템이 Webpack에서 esbuild로
실제 환경에서 도구 사용 에이전트 평가: OpenEnv와 Calendar Gym 분석
본 글은 Meta와 Hugging Face가 개발한 오픈소스 프레임워크 OpenEnv를 소개하며, AI 에이전트의 실제 환경 적용 가능성을 평가하는 방법을 다룹니다. 특히 Turing에서 제작한 'Calendar Gym'을 통해 접근 제어(Access Control), 시간 추론(Temporal Reasoning), 다단계 워크플로우 등 현실적인 제약 조건 하에 도구 사용 능력을 검증합니다. 분석 결과, 에이전트들이 단일 작업에서는 높은 성능을 보이지만, 장기적이고 모호하며 복잡한 다단계 추론 과정에서 신뢰성이 크게 떨어진다는 한계
AI 에이전트가 CUDA 커널을 생성하고 최적화하는 방법
본 글은 AI 코딩 에이전트(Codex, Claude 등)에게 도메인 지식(Domain Knowledge)을 주입하여 복잡한 CUDA 커널 개발 작업을 자동화하는 방법을 소개합니다. 기존에는 GPU 아키텍처별 최적화 가이드, PyTorch 라이브러리 통합 패턴, 환경 설정 문제 등으로 인해 전문적인 지식이 필수였으나, 새로운 에이전트 스킬(Skill)을 통해 이 모든 복잡한 과정을 구조화된 컨텍스트로 제공합니다. 그 결과, 에이전트는 H100 같은 특정 GPU 아키텍처를 타겟으로 하는 RMSNorm이나 어텐션 커널을 성공적으로 생성
Gradio의 gr.HTML로 웹 앱 개발 혁신: 단일 파일에서 모든 것이 가능
Gradio의 `gr.HTML` 컴포넌트가 커스텀 템플릿, 스코프 CSS, JavaScript 상호작용을 지원하며 웹 앱 개발의 패러다임을 바꿉니다. 이를 통해 프론트엔드, 백엔드, 상태 관리를 모두 단일 Python 파일로 구현할 수 있게 되었습니다. 복잡한 인터랙티브 컴포넌트(예: 포도 타이머 애니메이션, 3D 카메라 제어, 실시간 음성 전사)를 별도의 빌드 과정 없이 즉시 배포 가능한 형태로 만들 수 있어, LLM을 활용한 아이디어-코드-배포 사이클을 극도로 단축합니다.
LLM 에이전트 실패 원인 진단: ITBench와 MAST를 활용한 심층 분석
본 글은 IBM Research와 UC Berkeley가 실제 IT 자동화 환경에서 LLM 에이전트 시스템의 실패 원인을 진단하는 방법을 제시합니다. 기존 벤치마크가 단순 성공률만 측정하여 '실패 여부'만 알려줬다면, 연구진은 MAST (Multi-Agent System Failure Taxonomy)를 개발해 실패를 구조화된 시그니처로 분석했습니다. ITBench(SRE/보안/FinOps 자동화 표준 벤치마크)의 SRE 트레이스 310개를 Gemini-3-Flash, Kimi-K2, GPT-OSS-120B 세 가지 모델에 적용한지
Unsloth와 Hugging Face Jobs로 AI 모델 무료 학습하는 방법
본 가이드는 Unsloth의 효율적인 트레이닝 기술과 Hugging Face Jobs를 결합하여 대규모 언어 모델(LLM)을 저렴하고 쉽게 파인튜닝하는 방법을 제시합니다. 특히 LFM2.5-1.2B-Instruct와 같은 소형 모델은 1GB 미만의 메모리로도 구동되어 온디바이스 배포에 최적화됩니다. 독자들은 Unsloth Jobs Explorers 그룹 가입을 통해 무료 크레딧과 Pro 구독 기회를 얻을 수 있습니다. 또한, Claude Code나 Codex 같은 코딩 에이전트를 활용하면 복잡한 CLI 명령어 없이도 프롬프트만으로
GGML과 llama.cpp가 Hugging Face에 합류하며 로컬 AI 생태계 강화
llama.cpp의 핵심 개발팀이 Hugging Face(HF)에 공식적으로 합류하여, 로컬 환경에서의 대규모 언어 모델(LLM) 추론 생태계의 장기적인 발전을 목표로 합니다. llama.cpp는 로컬 추론의 근간이며, HF의 Transformers 라이브러리는 모델 정의의 핵심 역할을 수행합니다. 이번 협력을 통해 두 기술 스택을 더욱 매끄럽게 통합하여, 사용자들이 새로운 오픈소스 LLM을 '원클릭'에 가깝게 배포하고 접근할 수 있도록 사용자 경험(UX)과 패키징을 개선하는 데 초점을 맞출 것입니다. 이는 로컬 AI가 클라우드 추
트랜스포머의 한계를 넘어서: Mixture of Experts (MoEs) 심층 분석
기존 LLM은 모델 크기(파라미터 수)를 늘리는 '밀집 스케일링'에 의존해왔으나, 이는 높은 학습 비용과 추론 지연 시간 증가라는 한계에 직면했습니다. Mixture of Experts (MoEs)는 이 문제를 해결하는 대안으로, 트랜스포머의 피드-포워드 레이어(Feed-Forward Layer) 일부를 여러 개의 '전문가(Experts)'로 대체합니다. 각 토큰은 라우터(Router)를 통해 필요한 소수의 전문가만 활성화하여 사용하므로, 전체 파라미터 수 대비 실제 추론 시 사용하는 계산량(Active Parameters)을 획기
24시간 속도전: 최신 트릭들을 결합한 Text-to-Image 모델 학습 가이드
본 글은 기존에 개별적으로 검증했던 다양한 Diffusion Model의 최신 트레이닝 기법들을 하나로 통합하여, 제한된 컴퓨팅 예산(24시간, $1500) 내에서 Text-to-Image 모델을 학습시키는 실질적인 방법을 제시합니다. 핵심 내용은 픽셀 공간 (pixel space)에서의 직접 예측 방식을 채택하고, LPIPS 및 DINOv2 기반의 지각 손실(perceptual loss)을 추가하여 성능과 수렴 속도를 극대화하는 것입니다. 또한 TREAD를 활용한 토큰 라우팅(token routing)과 REPA를 이용한 표현 정
Modular Diffusers: 확산 모델 파이프라인의 모듈화 및 컴포지션 가이드
Modular Diffusers는 기존 `DiffusionPipeline`보다 유연하고 조합 가능한(composable) 대안을 제공합니다. 이 기능을 통해 텍스트 인코딩, 이미지 인코딩, 디노이징, 디코딩 등 확산 모델의 각 구성 요소를 독립적인 '블록'으로 분리하여 관리할 수 있습니다. 개발자는 이러한 블록들을 자유롭게 추가, 제거, 교체하며 자신만의 워크플로우를 구축할 수 있으며, 이를 노드 기반 인터페이스(Mellon)와 연동하거나 커스텀 Python 클래스로 구현하여 복잡한 AI 파이프라인을 효율적으로 설계하고 최적화할 수
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.