Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
X @huggingpapers (검증됨) 165건필터 해제
Allen AI, Hugging Face에 양손 로봇 페그보드 데이터셋 공개
Allen AI가 Hugging Face에 35K 프레임 규모의 양손 로봇 페그보드 조작 데이터셋을 공개했습니다. 또한 Alibaba 연구진은 DiT의 성능을 높이는 새로운 방식인 DAR을 제안했습니다.

Microsoft가 SkillOpt를 출시하다
Microsoft가 에이전트 스킬을 텍스트 공간에서 신경망처럼 훈련할 수 있는 SkillOpt를 출시했습니다. 모델 가중치를 수정하지 않고도 6개 벤치마크와 7개 모델 설정에서 최고 수준의 성능을 입증했습니다.

Microsoft, Hugging Face에 Lens 공개
Microsoft가 Hugging Face에 효율적인 텍스트-이미지 생성 모델인 Lens를 공개했습니다. Lens는 적은 연산량으로 SOTA 품질을 달성하며 빠른 생성 속도를 자랑합니다. 또한 오디오 LLM의 신뢰성 지형을 분석한 연구 결과도 함께 다룹니다.
OSCAR: 긴 문맥 추론을 위한 진정한 2-bit KV 캐시 양자화 (KV cache quantization)
Together AI 연구진이 개발한 OSCAR는 어텐션 인식 공분산 회전을 통해 2-bit 수준의 KV 캐시 양자화를 구현합니다. 이를 통해 메모리 사용량을 8배 절감하고 서빙 처리량을 최대 7배까지 향상시키며 긴 문맥 추론 성능을 최적화합니다.
대규모 오디오 언어 모델(Large Audio Language Models)에 관한 조사
대규모 오디오 언어 모델(Large Audio Language Models)의 신뢰성 지형을 6가지 핵심 축으로 분석한 연구입니다. 성숙한 공격 방식과 파편화된 방어 체계 사이의 격차를 조명하며, 신뢰할 수 있는 청각 AI 구축을 위한 로드맵을 제시합니다.
AI2, Hugging Face에 양손 페그보드 조작 벤치마크 공개
AI2가 Hugging Face에 LeRobot 기반의 양손 페그보드 조작 벤치마크를 공개했습니다. 또한, 풀 어텐션 LLM의 효율성을 높이기 위해 검색 헤드를 분리하고 토큰 인덱서를 추가하여 컨텍스트 처리 속도를 획기적으로 개선한 연구 결과가 소개되었습니다.
30B-A3B FP8 모델을 여기서 확인하세요: huggingface.co/tencent/Hy-MT2-30B-A3B-FP8
Tencent에서 공개한 Hy-MT2-30B-A3B-FP8 모델에 대한 안내입니다. Hugging Face를 통해 해당 모델 및 다양한 변형 모델들을 확인할 수 있습니다.
IndusAgent: 동적 도구 오케스트레이션 및 게이트형 강화학습을 통해 멀티모달 LLM을 강화하는 도구 증강 에이전트 프레임워크
IndusAgent는 동적 도구 오케스트레이션과 게이트형 강화학습을 활용하여 멀티모달 LLM의 성능을 높이는 에이전트 프레임워크입니다. 이를 통해 개방형 어휘 기반의 산업 이상 탐지 작업을 효과적으로 수행합니다.
논문: Indus-CoT 데이터셋과 Gated Reinforcement Learning (게이트 강화학습)을 사용하여 MVTec-AD
Indus-CoT 데이터셋과 Gated Reinforcement Learning을 활용하여 MVTec-AD 등 주요 벤치마크에서 최첨단 Zero-shot 성능을 달성한 연구입니다.
Alibaba 연구진, MIGA 발표: 수천 프레임에 걸쳐 최첨단 시간적 일관성을 유지하는 무학습(Train-free) 방식의 무한 프레임
Alibaba 연구진이 수천 프레임의 비디오 생성 시 시간적 일관성을 유지하는 무학습 방식의 MIGA를 발표했습니다. 2단계 정렬 메커니즘과 이중 일관성 강화 기술을 통해 최첨단 성능을 구현합니다.
Mega-ASR: 야생 환경 음성 인식을 위한 최초의 파운데이션 모델 (Foundation Model)
야생 환경의 음성 인식을 위해 설계된 최초의 파운데이션 모델인 Mega-ASR을 소개합니다. SFT와 강화학습을 통해 다양한 음향 시나리오를 학습하여 기존 SOTA 대비 성능을 대폭 향상했습니다.
Mega-ASR: 야생 환경(in-the-wild) 음성 인식을 위한 최초의 파운데이션 모델 (Foundation Model)
야생 환경의 음성 인식을 위해 설계된 최초의 파운데이션 모델인 Mega-ASR을 소개합니다. 점진적 SFT와 RL을 활용해 다양한 음향 시나리오를 학습하여 기존 SOTA 대비 뛰어난 성능을 입증했습니다.
능동 학습 (Active learning)을 통해 LLM 재순위화 (reranking) 비용을 절반으로 절감
능동 학습(Active Learning)을 활용하여 LLM 재순위화(reranking) 비용을 50% 절감하는 프레임워크를 소개합니다. 노이즈에 강한 구조를 통해 순위 품질을 유지하면서도 양방향 쿼리 비용을 효과적으로 제거합니다.
GoLongRL: 완전한 오픈 소스 롱 컨텍스트 (Long-context) RL 학습
GoLongRL은 23K개의 다양한 RLVR 샘플을 활용하여 롱 컨텍스트 RL 학습을 지원하는 완전한 오픈 소스 프로젝트입니다. GoLongRL-30B-A3B 모델은 적은 활성화 파라미터로도 DeepSeek-R1 및 Qwen3-235B-Thinking과 대등한 성능을 입증했습니다.
Video2GUI: 5억 개 이상의 라벨링되지 않은 YouTube 영상을 근거 있는 GUI 상호작용 궤적으로 변환하는 완전 자동화 프레임워크
Video2GUI는 라벨링되지 않은 YouTube 영상을 GUI 상호작용 궤적으로 변환하는 완전 자동화 프레임워크입니다. 이를 통해 1,270만 개의 궤적을 포함하는 WildGUI 데이터셋을 구축하여 GUI 에이전트 성능을 크게 향상시켰습니다.
Tencent이 Hugging Face에 번역 지시 이행 벤치마크 (Translation Instruction Following
Tencent이 LLM의 번역 지시 이행 능력을 평가하기 위한 새로운 벤치마크를 Hugging Face에 공개했습니다. 이 데이터셋은 다양한 언어 환경에서 모델이 복잡한 제약 조건을 얼마나 정확하게 준수하는지 측정합니다.
Tencent가 Hugging Face에 Hy-MT2를 출시했습니다
Tencent가 33개 언어를 지원하는 다국어 번역 모델 제품군인 Hy-MT2를 Hugging Face에 출시했습니다. 이 모델은 DeepSeek-V4-Pro 및 Kimi K2.6을 능가하는 SOTA 성능을 보여줍니다.
OScaR: 극한의 KV 캐시 양자화 (KV Cache Quantization)를 위한 오컴의 면도날
OScaR은 데이터, 학습, 보정 과정 없이 INT2 양자화를 수행하는 새로운 KV 캐시 양자화 기술입니다. 다양한 X-LLM 모델에서 정확도 손실을 최소화하면서도 3배의 속도 향상과 5.3배의 메모리 절감 효과를 입증했습니다.
OpenComputer: 정밀하고 상태 인식 가능한 검증을 통해 컴퓨터 사용 에이전트를 평가하기 위한 33개의 데스크톱 애플리케이션 및 1
OpenComputer는 컴퓨터 사용(computer-use) 에이전트의 성능을 정밀하게 평가하기 위해 구축된 검증기 기반(verifier-grounded) 프레임워크입니다. 33개의 데스크톱 애플리케이션과 1,000개의 태스크를 포함하는 소프트웨어 환경을 통해 상태 인식(state-aware)이 가능한 정밀한 검증을 제공합니다.
추론 RL을 위한 Anti-Self-Distillation (역 자기 증류)
추론 RL(Reasoning RL) 성능 향상을 위해 발산을 역전시키는 Anti-Self-Distillation 기법을 제안합니다. 이 방식은 모델이 템플릿을 단순 반복하는 대신 'Wait'나 'Maybe'와 같은 숙고 토큰(deliberation tokens)을 보존하도록 유도하여 수렴 속도와 수학적 추론 성능을 크게 개선합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.