Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
Hugging Face Blog 277건필터 해제

Hugging Face의 PP-OCRv6: 1.5M에서 34.5M 파라미터로 구현하는 50개 언어 OCR
Hugging Face를 통해 공개된 PP-OCRv6는 1.5M에서 34.5M 파라미터 규모의 경량 OCR 모델 제품군입니다. 50개 언어를 지원하며, 다양한 환경에 맞춰 tiny, small, medium 세 가지 계층으로 제공됩니다.
LoRA를 넘어서: 가장 인기 있는 파인튜닝 기법을 능가할 수 있을까?
현재 가장 널리 사용되는 파라미터 효율적 파인튜닝(PEFT) 기술인 LoRA의 압도적인 점유율을 분석하고, 이를 능가하는 새로운 기술들의 필요성을 제기합니다. LoRA의 높은 가시성과 생태계 지원이 사용량을 강화하는 구조를 설명하며, 더 나은 성능을 위한 연구 동향을 다룹니다.

GLM-5.2: 장기 작업(Long-Horizon Tasks)을 위해 구축됨
GLM-5.2는 1M 토큰의 견고한 컨텍스트를 지원하며 장기 작업(Long-Horizon Tasks)에 최적화된 오픈 소스 모델입니다. IndexShare 아키텍처와 개선된 MTP 레이어를 통해 효율성을 높였으며, 코딩 에이전트 벤치마크에서 최상위권 성능을 입증했습니다.
North Mini Code 소개: 개발자를 위한 Cohere의 첫 번째 모델
Cohere가 에이전트 소프트웨어 엔지니어링에 최적화된 30B MoE 모델인 North Mini Code를 출시했습니다. Apache 2.0 라이선스로 제공되며, 유사 규모의 모델 및 대형 모델들을 능가하는 코딩 성능을 보여줍니다.
음성 에이전트가 이중 언어 사용자를 처리할 수 있을까? 코드 스위칭 (Code-Switched) 음성에 대한 프런티어 ASR 벤치마킹
이중 언어 사용자의 코드 스위칭(Code-switching) 음성을 처리하기 위한 새로운 ASR 벤치마크와 데이터셋을 소개합니다. HR 및 IT 지원 시나리오를 바탕으로 다양한 언어 쌍의 성능을 측정하며, AU-Harness를 통해 연구 데이터를 공개합니다.
GitHub CI를 Hugging Face Jobs로 마이그레이션하기
GitHub Actions의 한계를 극복하기 위해 Hugging Face Jobs를 CI 인프라로 활용하는 마이그레이션 방법을 소개합니다. 이를 통해 CPU 작업 속도를 30% 단축하고, GPU 하드웨어가 필요한 테스트 스위트를 효율적으로 실행할 수 있습니다.
사라진 폭락: 5개 모델 경제에서의 통제와 창발
다양한 아키텍처를 가진 소규모 모델들을 활용한 에이전트 기반 경제 시뮬레이션 실험을 다룹니다. 단일 모델의 성향에 의존한 창발적 행동과 이질적인 모델 집단이 만들어내는 실제 시장 반응의 차이를 분석합니다.
오픈 소스 커뮤니티가 에이전트 강화학습 (Agentic RL)을 위한 OpenEnv를 지원합니다
OpenEnv가 에이전트 강화학습(Agentic RL)을 위한 상호운용성 계층으로 진화하며 오픈 소스 프로젝트로 전환됩니다. Hugging Face를 포함한 주요 AI 기업들이 참여하여 에이전트 실행 환경의 표준화를 목표로 합니다.

Pakistan Notice Helper 구축하기: 매우 국지적인 안전 문제를 위한 작은 AI 도구
파키스탄의 사기 메시지 문제를 해결하기 위해 Qwen3.5 4B 소형 모델을 활용한 'Pakistan Notice Helper' 구축 사례를 소개합니다. 텍스트와 스크린샷을 분석하여 위험도를 분류하고, 우르두어 지원을 통해 지역 맞춤형 안전 가이드를 제공합니다.

Her · हेर — Claude Code 세션을 위한 탐정
Her는 Claude Code 세션의 .jsonl 로그 파일을 분석하여 에이전트의 동작, 토큰 사용량, 위험 활동을 추적하는 탐정 도구입니다. 사용자는 복잡한 JSON 데이터를 직접 읽는 대신, Her를 통해 세션의 흐름을 파악하고 개선 사항을 제안받을 수 있습니다.
다섯 개의 연구소, 다섯 개의 지능: 소형 모델로 구축한 멀티 모델 금융 드라마
다양한 연구소의 소형 모델(SLM)을 활용하여 금융 에이전트들이 상호작용하는 멀티 모델 시뮬레이션 환경 구축 사례를 다룹니다. 서로 다른 모델을 하나의 플랫폼에서 운영할 때 발생하는 서빙 계층의 기술적 이슈와 해결 방법을 엔지니어링 관점에서 설명합니다.
구직 도우미 (Job Searcher)
DeepSeek V4 Pro를 교사 모델로, Qwen3-8B를 학생 모델로 활용하여 이력서 기반의 맞춤형 구직 에이전트를 구축하는 기술적 과정을 설명합니다. 쿼리 생성, 검색, 5개 차원의 점수 산정 단계를 거쳐 논리적 근거를 갖춘 최종 후보 명단을 도출합니다.

Persona Atlas: 유명한 인물들의 사고 방식 매핑하기
Persona Atlas는 유명 인물의 사고방식과 추론 스타일을 시각화하여 비교하는 연구 프로젝트입니다. 단순한 지식 측정을 넘어, 에이전트가 수집한 데이터를 바탕으로 페르소나 간의 관점과 어조 차이를 히트맵 형태로 보여줍니다.
Thousand Token Wood: 3B 모델로 구현한 멀티 에이전트 경제 시스템
Qwen2.5-3B 소형 모델을 활용하여 실시간 멀티 에이전트 경제 시뮬레이션 시스템을 구축한 엔지니어링 보고서입니다. 모델의 제약을 극복하기 위해 설계된 희소성 메커니즘과 프롬프트 엔지니어링 기법을 다룹니다.
에이전트에 최적화된 Hub 작업 방식으로서의 hf CLI 설계
Hugging Face는 코딩 에이전트의 효율성을 높이기 위해 hf CLI를 재설계했습니다. 에이전트 감지 기능을 통해 출력 형식을 최적화하며, 이를 통해 기존 방식 대비 토큰 사용량을 최대 6배 절감할 수 있음을 확인했습니다.
사용자의 언어, 도메인 또는 억양에 맞춰 Nemotron 3.5 ASR을 미세 조정(Fine-Tune)하는 방법
Nemotron 3.5 ASR은 40개의 언어 로케일을 지원하며 낮은 지연 시간과 높은 정확도를 동시에 제공하는 오픈 웨이트 모델입니다. 단일 체크포인트로 다국어 지원, 실시간 스트리밍, 구두점 자동 삽입 기능을 통합하여 기존 ASR 구축 시 발생하는 비용과 복잡성을 해결합니다.
EVA-Bench Data 2.0: 3개 도메인, 121개 도구, 213개 시나리오
음성 에이전트의 도메인 특화 능력을 평가하기 위한 EVA-Bench Data 2.0이 출시되었습니다. 항공, IT 서비스, 헬스케어 HR 등 3개 도메인과 213개 시나리오를 통해 에이전트의 실무 적응력을 정밀하게 검증합니다.

NVIDIA Cosmos 3 환영: 물리적 AI (Physical AI) 추론 및 행동을 위한 최초의 오픈 옴니 모델 (Omni-model)
NVIDIA가 물리적 AI를 위한 최초의 오픈 옴니 모델인 Cosmos 3를 공개했습니다. MoT 아키텍처를 기반으로 텍스트, 이미지, 비디오, 행동 등 다양한 모달리티를 단일 모델에서 통합 처리하며 물리적 세계를 시뮬레이션합니다.

ITBench-AA: 에이전트 기반 기업 IT 작업을 위한 최초의 벤치마크에서 프런티어 모델들이 50% 미만의 점수를 기록하다 —
Artificial Analysis와 IBM Research가 에이전트 기반 기업 IT 작업을 평가하는 새로운 벤치마크인 ITBench-AA를 출시했습니다. 첫 번째 영역인 SRE(사이트 신뢰성 공학) 테스트에서 모든 프런티어 모델이 50% 미만의 낮은 점수를 기록하며 에이전트 성능의 한계를 보여주었습니다.
Hub Bucket을 통한 1조 개의 파라미터 전송: TRL의 Delta Weight Sync
비동기 강화학습(Async RL) 시 모델 전체를 전송하는 대신, 변경된 가중치(delta)만 전송하여 대역폭을 획기적으로 절감하는 기술을 소개합니다. TRL의 Delta Weight Sync를 통해 Hugging Face Bucket을 활용한 분리형 훈련(disaggregated training)이 가능해집니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.