Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
X @huggingpapers (검증됨) 165건필터 해제
Stability AI가 Hugging Face에 SAME를 출시했습니다: 4096배 압축률을 가진 음악 오토인코더 (Autoencoder)
Stability AI가 Hugging Face를 통해 음악 오토인코더인 SAME를 출시했습니다. 이 모델은 업계 표준보다 두 배 높은 4096배의 압축률을 제공하면서도 깨끗한 스테레오 재구성 품질을 유지하여 생성형 오디오 워크플로우에 최적화되어 있습니다.
논문: OpenComputer - 견고한 컴퓨터 자동화 벤치마킹을 위한 자기 진화형 검증기 및 합성 작업 생성
OpenComputer는 견고한 컴퓨터 자동화 벤치마킹을 위해 자기 진화형 검증기와 합성 작업 생성 기술을 도입한 연구입니다. 이 시스템은 33개의 데스크톱 애플리케이션을 대상으로 하여 컴퓨터 자동화 성능을 정밀하게 평가합니다.
새로운 의미-음향 오토인코더(semantic-acoustic autoencoder), 초고속 추론을 위한 적대적 사후
Stability AI가 새로운 의미-음향 오토인코더 기술을 도입한 Stable Audio 3 Medium Base 모델을 공개했습니다. 이 모델은 적대적 사후 학습을 통해 초고속 추론을 지원하며, 인페인팅 및 LoRA 미세 조정 기능을 포함하고 있습니다.
Stability AI가 Hugging Face에 Stable Audio 3를 출시했습니다
Stability AI가 Hugging Face를 통해 Stable Audio 3 모델군을 출시했습니다. 이 모델은 가변 길이의 오디오 생성 및 편집을 지원하는 빠른 잠재 확산 모델(latent diffusion models) 기반의 기술입니다. 사용자는 단 몇 초 만에 수 분 분량의 고품질 음악과 음향 효과를 생성할 수 있습니다.
시각이 소리를 대변할 때
비디오 지원 MLLMs가 실제 오디오를 분석하는 대신 시각적 정보에만 의존하여 소리를 잘못 추론하는 현상을 다룹니다. 이러한 현상은 모델이 시각적 단서로부터 오디오를 환각하는 '오디오-비주얼 Clever Hans 효과'로 정의됩니다.
Stability AI의 SAM-E 모델 및 관련 논문
Stability AI가 텍스트-오디오 생성, 오디오 편집 및 인페인팅을 지원하는 SAM-E 모델을 공개했습니다. 이 모델은 Stable Audio 3와 함께 사용되어 더욱 정교한 오디오 작업이 가능하도록 설계되었습니다.
CoRD: 긴 사고 사슬 (Long Chain-of-Thought) 증류를 위한 협력적 다중 교사 디코딩 프레임워크
CoRD는 긴 사고 사슬(Long Chain-of-Thought) 추론 과정을 증류하기 위한 협력적 다중 교사 디코딩 프레임워크입니다. 여러 개의 서로 다른 거대 추론 모델(LRMs)이 단계별로 고품질의 추론 궤적을 공동 구축할 수 있도록 설계되었습니다. 효율적인 작업을 위해 퍼플렉시티 가이드 빔 서치(Perplexity-guided beam search) 기술을 활용합니다.
NVIDIA Research, LongLive-2.0 공개
NVIDIA Research가 긴 비디오 생성을 위한 최초의 NVFP4 기반 병렬 인프라인 LongLive-2.0을 공개했습니다. W4A4 양자화 기술을 적용하여 Blackwell GPU 환경에서 훈련 속도를 2.15배 향상시켰으며, 45.7 FPS의 추론 성능을 제공합니다.
ByteDance Seed가 Hugging Face에 SimArt를 출시했습니다: 창의적 및 생성적 애플리케이션을 위한 새로운 모델
ByteDance Seed가 Hugging Face를 통해 새로운 모델인 SimArt를 출시했습니다. 이 모델은 창의적이고 생성적인 애플리케이션 개발을 목적으로 설계되었습니다.
ByteDance, 3B 규모의 통합 멀티모달 모델 Lance 출시
ByteDance가 이미지와 비디오의 이해, 생성, 편집을 하나의 프레임워크로 수행할 수 있는 3B 규모의 통합 멀티모달 모델 Lance를 출시했습니다. 이 모델은 MoE(Mixture-of-Experts) 구조를 활용하여 3B의 활성 파라미터만으로도 7B 이상의 모델을 능가하는 성능을 보여줍니다.
SkillsVote: 168만 개의 오픈 소스 에이전트 기술을 프로파일링하고 실행 전 역량을 추천하며, 기여 기반 피드백을 통해 라이브러리를
SkillsVote는 168만 개의 오픈 소스 에이전트 기술을 프로파일링하고 실행 전 역량을 추천하는 라이프사이클 거버넌스 프레임워크입니다. 기여 기반 피드백을 통해 라이브러리를 진화시키며, 모델 업데이트 없이도 Terminal-Bench에서 고정된 LLM의 성능을 최대 7.9%p 향상시킵니다.
Video LLM의 프레임 스케일링(Frame Scaling) 문제로 여전히 고민 중이신가요? LiteFrame를 소개합니다.
Google DeepMind에서 연구한 LiteFrame은 Video LLM의 프레임 스케일링 문제를 해결하기 위한 매우 효율적인 비디오 인코더를 제안합니다. 이 기술은 효율적인 비전 인코더를 통해 Video LLM이 더 많은 프레임을 처리할 수 있도록 지원합니다.
자동 연구를 위한 AI: 로드맵 및 사용자 가이드 — 아이디어 생성부터 전파까지 전체 연구 생애 주기에 걸친 250개 이상의 논문을 매핑한 첫
아이디어 생성부터 논문 전파에 이르는 연구 생애 주기 전반을 다루는 'AI for Auto-Research'에 관한 첫 번째 조사 연구입니다. 250개 이상의 관련 논문을 분석하여 AI가 연구 과정에서 제공하는 신뢰할 수 있는 보조와 신뢰할 수 없는 자율성 사이의 경계를 식별합니다.
저희의 서베이(Survey)를 소개해 주신 @HuggingPapers에 감사드립니다!
본 연구는 아이디어 생성부터 문헌 검토, 작성, 검증, 전파에 이르는 전체 연구 생애 주기를 다루는 250개 이상의 AI 자동 연구(AI Auto-Research) 관련 논문을 매핑한 첫 번째 서베이입니다. 연구 과정에서 AI가 제공하는 신뢰할 수 있는 보조와 신뢰할 수 없는 자율성 사이의 경계를 식별하는 데 중점을 둡니다.
KVPO: 자기회귀 비디오 정렬을 위한 ODE 기반 GRPO
KVPO는 스트리밍 자기회귀 비디오 생성기를 정렬하기 위해 ODE 기반의 GRPO 방식을 도입한 기술입니다. 인과적-의미적 KV 캐시 탐색과 속도장 대리 정책을 활용하여 단기 및 장기 비디오 생성 시 시각적 품질과 텍스트-비디오 정렬 성능을 동시에 향상시킵니다.
에이전트 하네스로서의 코드 (Code as Agent Harness)
본 기사는 코드가 소프트웨어 엔지니어링, 로보틱스, 과학적 발견 분야에서 AI 에이전트를 위한 실행 가능한 기질(Executable Substrate)로서 어떻게 작동하는지 조사합니다. 코드는 에이전트의 하네스 인터페이스, 메모리 메커니즘, 그리고 멀티 에이전트 확장성을 지원하는 핵심적인 역할을 수행합니다.
코드 및 가중치, 프로젝트 페이지, 논문 정보
KVPO 프로젝트의 코드, 가중치, 프로젝트 페이지 및 관련 논문 정보를 제공합니다. Hugging Face를 통해 모델 가중치와 논문을 확인할 수 있으며, 상세한 프로젝트 내용은 공식 웹사이트에서 확인할 수 있습니다.
CogOmniControl: 창의적 의도 인지를 통한 추론 기반 비디오 생성
Tencent 연구진이 창의적 의도 인지와 제어 가능한 생성을 결합한 새로운 비디오 생성 프레임워크인 CogOmniControl을 발표했습니다. 이 프레임워크는 특화된 VLM을 활용하여 스토리보드와 같은 추상적인 조건을 처리하고 추론 기반의 비디오 생성을 가능하게 합니다.
논문: https://huggingface.co/papers/2605.04523... 7B 모델:
SemEval-2026 Task 8 우승팀인 RaguTeam이 GPT-4o-mini를 활용하여 인스턴스당 7개의 다양한 LLM으로 1위를 차지하며, 기존의 거대 모델들(120B)을 능가하는 성과를 보여주었습니다. 이들은 또한 대형 모델들과 경쟁할 수 있는 경량화된 7B 전문 모델인 Meno-Lite-0.1을 공개했습니다.
SemEval-2026 Task 8 우승팀은 심사위원 주도 앙상블 사용
SemEval-2026 Task 8의 우승팀인 RaguTeam이 GPT-4o-mini를 기반으로 인스턴스당 7개의 다양한 LLM을 조합하는 '심사위원 주도 앙상블(Judge-led Ensemble)' 방식을 사용하여 대회에서 최고 성과를 거두었습니다. 이들의 접근 방식은 단순히 크기가 큰 초대형 모델들(120B급)의 성능을 능가했습니다. 또한, RaguTeam은 대규모 모델들과 경쟁할 수 있는 고성능 7B 전문 모델인 Meno-Lite-0.1도 공개하여 연구 커뮤니티에 기여했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.