Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
Hugging Face Blog 100건필터 해제
TimeScope: 비디오 대형 다중 모달 모델이 얼마나 오래 갈 수 있나요?
TimeScope는 시각 언어 모델(VLM)이 장시간 영상을 얼마나 깊이 있게 이해하는지 측정하기 위해 설계된 오픈소스 벤치마크입니다. 이 벤치마크는 1분에서 최대 8시간에 달하는 긴 기본 영상('haystack')에 짧은 '영상 클립'(needle)을 삽입하여, 모델의 국소화된 검색, 정보 합성, 미세한 시간적 인식 세 가지 핵심 능력을 평가합니다. TimeScope는 단순히 프레임 수를 늘리는 것만으로는 진정한 시간적 이해를 달성할 수 없으며, 전체 맥락에서 사건 순서와 역학을 추론하는 것이 중요함을 강조하며, 현존 모델들의 과장된 주장을 검증합니다.
Trackio 소개: Hugging Face 의 경량 실험 추적 라이브러리
Trackio는 Hugging Face에서 개발한 경량 실험 추적(Experiment Tracking) 라이브러리로, 기존에 사용하던 `wandb`와 유사한 API를 제공합니다. 이 도구는 훈련 중 지표, 매개변수, 하이퍼파라미터 등을 로깅하고 시각화할 수 있게 해주며, 특히 결과를 Hugging Face Spaces에 쉽게 임베딩하거나 공유할 수 있다는 강력한 장점을 가집니다. Trackio의 주요 강점은 쉬운 공유성, 에너지 사용량 같은 환경 지표 추적을 통한 투명성 확보, 그리고 기록된 데이터의 높은 접근성을 제공한다는 점입니다. 이를 통해 연구자들은 복잡한 설정 없이도 효율적이고 협업하기 좋은 방식으로 머신러닝 실험을 관리할 수 있습니다.
`hf` 소개: 더 빠르고 친근한 Hugging Face CLI
Hugging Face CLI가 공식적으로 `huggingface-cli`에서 더 빠르고 사용하기 쉬운 `hf`로 이름이 변경되었습니다. 이 변화는 명령어 구조를 `hf <resource> <action>`이라는 예측 가능한 패턴으로 재구성하여 일관성과 명확성을 높였습니다. 주요 인증 명령어(`login`, `whoami`, `logout`)의 사용법도 업데이트되었으며, 새로운 기능인 클라우드 기반 작업 실행 서비스인 `hf jobs`가 추가되었습니다.
📚 3LM: STEM 및 코드 분야에서 아랍어 LLM 벤치마크
본 기사는 아랍어 대형 언어 모델(LLMs)의 성능을 과학적 추론, 기술 문제 해결 및 코딩 능력 등 고부가가치 영역에서 평가하기 위해 설계된 다중 구성 요소 벤치마크 '3LM (علم)'을 소개합니다. 3LM은 실제 교육 자료 기반의 객관식 STEM 문제(Native STEM), 합성 난이도 문제를 포함하는 Synthetic STEM, 그리고 아랍어 번역 및 적응된 코드 생성 테스트셋으로 구성되어 있습니다. 이 벤치마크를 통해 다양한 LLM들을 평가한 결과, 특정 모델들이 각 영역에서 우수한 성능을 보였으며, 이는 아랍어 LLM의 구조적 추론 능력과 코딩 능력을 객관적으로 측정할 수 있는 중요한 진전을 의미합니다.
OpenAI 의 새로운 오픈소스 모델 가족 GPT OSS를 환영합니다!
OpenAI가 새로운 오픈소스 모델 가족인 GPT OSS를 Apache 2.0 라이선스로 공개하며, 이는 AI의 접근성을 높이고 커뮤니티에 기여하려는 의지를 보여줍니다. 이 모델들은 총 21B와 117B 파라미터 크기로 제공되며, 특히 mxfp4 양자화 스키마를 사용하여 메모리 효율성을 극대화했습니다. 사용자는 Hugging Face Inference Providers 및 Responses API를 통해 로컬 환경이나 다양한 클라우드 서비스에서 이 모델들을 쉽게 배포하고 사용할 수 있습니다.
Accelerate ND-Parallel: 효율적인 다 GPU 학습 가이드
본 문서는 대규모 언어 모델(LLM) 학습 시 효율적인 다중 GPU 병렬화 전략을 안내합니다. 데이터 병렬화(DP), 완전한 쉐드드 데이터 병렬화(FSDP), 텐서 병렬화(TP) 등 다양한 병렬화 기법의 작동 원리와 조합 방법을 설명하며, 특히 Accelerate와 Axolotl 같은 도구를 사용하여 이러한 복잡한 전략을 쉽게 구현할 수 있는 방법을 제시합니다. 사용자는 `ParallelismConfig`를 통해 여러 전략의 차수와 조합을 구성하고, 메모리 제약에 따라 최적의 병렬화 구성을 선택하여 대규모 모델 학습을 가속화할 수 있습니다.
TextQuests: LLM 기반 텍스트 기반 비디오 게임에서 LLM 은 얼마나 뛰어난가?
TextQuests는 25개의 고전한 인포컴 인터랙티브 픽션 게임을 기반으로 구축된 새로운 벤치마크로, LLM 에이전트의 장기적이고 복잡한 추론 능력을 평가합니다. 이 테스트베드는 에이전트가 외부 도구 없이 오랫동안 지속되는 컨텍스트 속에서 다단계 계획을 수립하고 미지의 환경을 탐험하며 학습하는 능력을 요구합니다. 평가는 게임 진행도, 윤리적 행동(해악), 그리고 10만 토큰 이상의 장기 컨텍스트 추론 능력에 초점을 맞추며, LLM이 긴 역사 속에서 발생하는 환각이나 반복적인 오류를 얼마나 잘 관리하는지 측정합니다.
NVIDIA, 다국어 추론 데이터셋 v1 출시
NVIDIA는 오픈 생태계 지원을 위해 600만 개의 다국어 추론 데이터셋(Multilingual Reasoning Dataset) v1을 출시했습니다. 이 데이터셋은 프랑스어, 스페인어, 독일어, 이탈리아어, 일본어 등 5개 목표 언어로 번역되었으며, 기존 영어 지식을 보존하면서 사용자 프롬프트와 모델 응답만 번역하는 방식을 채택했습니다. 또한, NVIDIA는 하이브리드 Transformer–Mamba 아키텍처를 적용한 Nemotron Nano 2 9B 모델을 공개하여 높은 처리량과 낮은 비용으로 에지 디바이스에 AI 기능을 제공할 수 있게 했습니다.
Arm 및 ExecuTorch 0.7: 대중에게 생성형 AI를 가져다주는 것
Arm은 KleidiAI와 ExecuTorch 0.7 베타를 통해 온디바이스 생성형 AI(GenAI)의 접근성을 혁신적으로 높이고 있습니다. 핵심은 Armv8.2 아키텍처에 도입된 SDOT(Signed Dot Product) 명령어입니다. 이 명령어를 활용하여 LLM의 핵심 연산인 행렬 곱셈을 Int8/Int4와 같은 낮은 비트 정밀도로 효율적으로 가속화함으로써, 최신 플래그십 기기뿐만 아니라 3~5년 된 구형 장치나 Raspberry Pi 같은 다양한 Edge 디바이스에서도 고성능 GenAI 경험을 구현할 수 있게 되었습니다. ExecuTorch는 이러한 성능 최적화를 개발자에게 코드 통합 장벽 없이 제공합니다.
Neural Super Sampling (NSS) 출시!
Arm이 그래픽 및 게임 개발자를 위해 차세대 AI 기반 업스케일링 솔루션인 Neural Super Sampling (NSS)을 출시했습니다. NSS는 Arm의 Neural Technology를 활용하여 모바일 GPU의 Neural Accelerators(NX) 상에서 작동하는 실시간 시간적(super temporal) 업스케일링 모델입니다. 이 기술은 저해상도 입력으로부터 고품질 출력 프레임을 재구성함으로써, 특히 모바일 게임이나 XR과 같은 전력 제한 그래픽 환경에서 낮은 컴퓨팅 비용으로 높은 해상도의 렌더링을 가능하게 합니다.
Google 의 새로운 효율적인 임베딩 모델 EmbeddingGemma 환영합니다
Google DeepMind가 308M 파라미터와 2K 컨텍스트 윈도우를 갖춘 고효율 다국어 임베딩 모델인 EmbeddingGemma를 출시했습니다. 이 모델은 MTEB에서 최고 성능을 기록했으며, 100개 이상의 언어를 지원하며 양자화 시 낮은 메모리 사용량을 유지합니다. 또한, Gemma3 트랜스포머 백본을 기반으로 인코더 구조로 변환하여 검색 작업에 최적화되었으며, Fine-tuning을 통해 의료 등 특정 도메인에서 최고 수준의 성능을 발휘할 수 있습니다.
AI for Food Allergies
본 기사는 AI가 식품 알레르기 연구 분야에 가져오는 혁신적인 변화를 다룹니다. AlphaFold 같은 단백질 구조 예측 모델과 ProtBERT, ESM-2와 같은 딥러닝 모델은 아미노산 서열 분석을 통해 특정 단백질이 알레르기를 유발할지 여부를 높은 정확도로 예측합니다. 이러한 AI 기반 접근법은 기존의 실험실 연구에 의존하던 과정을 컴퓨팅 스크리닝으로 가속화하며, 새로운 알레르기 항원 발견 및 치료제 개발(DTI 모델링)을 가능하게 합니다.
VibeGame: Vibe Coding 게임 탐구
본 기사는 'Vibe Coding'이라는 개념을 탐구하며, 이는 AI를 고수준 프로그래밍 언어로 사용하여 무언가를 구축하는 방식을 의미합니다. 초기에는 작동하지만 프로젝트가 커지면 컨텍스트 창(context window)이 채워지면서 모델 성능 저하 문제가 발생하는데, 이를 해결하기 위해 작성자는 가벼운 context 관리 시스템 'Shallot'을 개발했습니다. 또한, Vibe Coding에 적합한 플랫폼으로 Roblox를 제시하며, 그 이유로 내장된 추상화 수준과 쉬운 코드 변환 능력을 꼽았습니다.
Jupyter Agents: 데이터 분석 노트북과 추론을 위한 LLM 훈련
Jupyter Agent는 코드 실행 능력을 활용하여 데이터 분석 및 데이터 과학 워크플로우를 Jupyter Notebook 환경 내에서 자연스럽게 구현할 수 있도록 설계된 에이전트입니다. 이 프로젝트는 Qwen-3 Coder와 같은 강력한 코딩 모델을 기반으로 하며, 특히 작은 모델의 성능 개선에 초점을 맞추고 있습니다. 연구진은 DABStep과 같은 현실적인 데이터 과학 벤치마크를 사용하여 모델을 평가하고, 스캐폴딩(Scaffolding) 구조를 단순화하며, 최종 답변 도구를 추가하는 등의 방식으로 미세 조정을 진행하여 에이전트의 정확도를 크게 향상시켰습니다.
Hugging Face Inference Provider에 Public AI 지원 추가 🔥
Public AI가 Hugging Face Hub의 공식 Inference Provider로 추가되어 사용자들이 다양한 공공 및 주권 모델에 쉽게 접근할 수 있게 되었습니다. 이 통합을 통해 개발자들은 JS와 Python 클라이언트 SDK를 사용하여 선호하는 제공자와 여러 모델을 손쉽게 활용할 수 있습니다. Public AI는 스위스 AI 기구, AI Singapore 등 주요 기관의 모델을 지원하며, vLLM 기반 분산 인프라를 통해 효율적이고 투명한 추론 서비스를 제공합니다.
Hugging Face Hub 의 모든 LLM 을 Together AI 로부터 미세 조정하세요
Together AI가 Hugging Face Hub의 모든 LLM을 자신들의 플랫폼에서 쉽게 미세 조정할 수 있는 기능을 출시했습니다. 이 통합은 복잡하고 비쌌던 기존의 미세 조정 인프라 문제를 해결하며, 사용자는 이제 Meta나 개별 기여자 등 출처에 관계없이 Hub의 호환 가능한 모든 모델을 Together AI 환경에서 일관된 용이성과 신뢰성으로 훈련할 수 있습니다. 또한, 훈련 후에는 결과물을 다시 Hugging Face Hub로 자동 업로드하여 커뮤니티와 공유하는 양방향 워크플로우를 지원합니다.
OpenAI GPT-OSS YOU 를 활용한 transformers 의 트릭
이 기술 기사는 Hugging Face의 `transformers` 라이브러리가 모델 로딩, 실행, 파인튜닝 효율성을 대폭 개선한 내용을 다룹니다. 핵심은 '커널(Kernels)' 패키지를 도입하여, Flash Attention이나 MoE와 같은 복잡하고 최적화된 연산 조합을 별도의 의존성 관리 없이 Hub에서 직접 다운로드하고 활용할 수 있게 한 것입니다. 이를 통해 사용자는 다양한 하드웨어 및 모델에 걸쳐 고도로 특수화되고 일반화된 성능 향상을 경험할 수 있습니다.
Scaleway이 Hugging Face Inference Providers에 추가됨 🔥
Scaleway이 Hugging Face Hub의 공식 Inference Provider로 추가되어 사용자들이 다양한 오픈 웨이트 모델에 더 쉽게 접근할 수 있게 되었습니다. 이 서비스를 통해 사용자들은 유럽 데이터 센터 기반의 안전한 인프라에서 경쟁력 있는 가격(토큰당 €0.20부터)으로 서버리스 추론을 이용할 수 있으며, 텍스트 및 이미지 처리는 물론 함수 호출 같은 고급 기능도 지원합니다. 개발자들은 Python/JS 클라이언트 SDK를 통해 Scaleway API 키 또는 Hugging Face 토큰을 사용하여 모델에 접근할 수 있습니다.
표준화된 위험 평가로 AI 안전성 민주화
본 기사는 개방형 AI 모델 생태계에서 표준화되고 투명하며 재현 가능한 위험 평가 프레임워크인 RiskRubric.ai를 소개합니다. 이 플랫폼은 투명성, 신뢰성, 보안, 프라이버시, 안전성, 평판 등 6가지 핵심 기둥을 기반으로 모든 AI 모델에 일관된 비교 가능 점수를 제공합니다. 이러한 표준화된 평가를 통해 개발자와 조직은 단순히 성능만 보고 모델을 선택하는 것이 아니라, 특정 위험(예: 프라이버시 또는 신뢰성) 측면에서 필요한 최소 임계값을 설정하여 배포 결정을 내릴 수 있게 됩니다. 또한, 보안 강화가 안전성 향상에 기여한다는 중요한 통찰도 제공합니다.
Swift Transformers 1.0 도달 – 그리고 미래로 눈을 돌려
Apple Silicon 플랫폼에서 로컬 LLM 통합 개발 경험을 개선하기 위해 설계된 Swift 라이브러리 'swift-transformers'가 1.0 버전을 출시하며 중요한 이정표를 달성했습니다. 이 라이브러리는 토크나이저, Hugging Face Hub 인터페이스, 그리고 Core ML 기반 모델 추론 기능을 제공하여 로컬 LLM 개발의 마찰을 줄입니다. 이번 릴리스는 안정성을 확보하고 커뮤니티가 다음 단계(MLX 및 에이전트 사용 사례)로 나아갈 수 있는 견고한 기초를 마련했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.