Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
X @_akhaliq (AI 논문) 106건필터 해제
MiA-Signature
MiA-Signature는 긴 컨텍스트 이해를 위해 글로벌 활성화(Global Activation)를 근사화하는 새로운 방법을 제안합니다. 이 방법은 모델이 입력 전체의 전역적인 패턴과 관계를 효과적으로 포착하도록 돕습니다. 이를 통해 기존 모델들이 어려움을 겪었던 장거리 의존성 및 복잡한 컨텍스트 이해 능력을 향상시킬 수 있습니다.
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation
이 논문은 소수의 스텝만으로도 효과적인 확산 증류(Diffusion Distillation)를 수행하기 위한 연속 시간 분포 매칭 기법을 제안합니다. 기존의 확산 모델들은 많은 수의 샘플링 스텝을 필요로 했으나, 본 연구는 연속 시간 공간에서 데이터 분포를 정확하게 매칭함으로써 적은 단계만으로도 고품질의 생성 결과를 얻을 수 있음을 보여줍니다. 이는 특히 효율적인 이미지 및 오디오 생성 모델 개발에 중요한 진전을 가져올 것입니다.
Apple presents TIDE
이 기술 기사는 'TIDE'라는 개념을 소개하며, 모든 계층(Layer)이 컨텍스트 아래의 토큰(Token)에 대한 지식을 갖는다는 점을 강조합니다. 이는 언어 모델이나 복잡한 시스템에서 각 구성 요소가 전체 맥락과 근본적인 단위 정보를 동시에 이해해야 함을 시사하는 아키텍처적 접근 방식입니다.
GOSIM 기간에 @huggingface 파리 사무실을 방문했습니다.
글쓴이는 GOSIM 기간 동안 Hugging Face 파리 사무실을 방문한 경험을 공유했습니다. 이 글은 오픈소스 AI 리더인 Hugging Face의 분위기를 묘사하며, 그들이 시내 중심가에 조용히 자리 잡고 최고의 오픈 소스 작업을 지속적으로 출시하는 모습을 강조합니다.
PhysForge accepted at ICML 2026
Tencent 연구진은 물리 기반의 3D 자산 생성을 위한 혁신적인 두 단계 프레임워크를 제안했습니다. 이 시스템은 VLM(Vision-Language Model) 아키텍처가 계층적 청사진을 계획하고, 이후 KineVoxel Injection을 활용한 확산 모델이 시뮬레이션 준비가 된 3D 자산을 생성하는 방식으로 작동합니다. 본 프레임워크는 PhysDB 기반의 대규모 데이터셋(150K)으로 학습되었습니다.
Hello again, everyone!
최신 모델인 Qwopus3.6-35B-A3B-v1이 출시되었으며, 성능 면에서 뛰어난 결과를 보여줍니다. 사용자는 댓글에 제공된 HF space 벤치마크 쇼케이스와 글을 통해 직접 그 우수성을 확인할 수 있습니다. 이 모델은 GGUF 형식으로 다운로드 가능하며, 개발팀은 훈련 과정에서 발견한 문제점을 수정했다고 밝히고 있습니다.
Stream-R1
이 기술 기사는 스트리밍 비디오 생성의 신뢰성(reliability)과 복잡도(perplexity)를 동시에 고려하는 보상 증류(Reward Distillation) 방법을 제안합니다. 이를 통해 생성된 비디오가 시간적 일관성을 유지하고 자연스러우면서도 예측 가능한 콘텐츠를 갖도록 개선할 수 있습니다. 특히, 스트리밍 환경에 최적화되어 실시간으로 고품질의 비디오 콘텐츠를 생성하는 데 기여합니다.
PhysForge
PhysForge는 인터랙티브 가상 월드(Interactive Virtual World)를 위한 물리 기반 3D 자산 생성 기술입니다. 이 시스템은 현실적인 물리적 상호작용을 갖춘 고품질의 3D 콘텐츠를 자동으로 생성하는 것을 목표로 합니다. 이를 통해 개발자들이 복잡한 수동 모델링 과정 없이도 몰입감 높은 가상 환경을 구축할 수 있도록 지원합니다.
huggingface의 SWE-bench Verified 리더보드가 거의 50개 모델을 비교합니다...
SWE-bench의 Verified 리더보드가 이제 거의 50개의 모델을 비교하며 커뮤니티 기반으로 확장되었습니다. 이는 폐쇄형 벤치마킹보다 더 많은 참여자와 데이터를 통해 개선된 신호를 제공합니다. 이 업데이트는 여러 주요 AI 모델들을 경쟁시키는 장을 마련했습니다.
Endless Terminals 프로젝트의 Hugging Face 다운로드 기록
Endless Terminals 프로젝트는 인간의 주석 없이 강화학습(RL) 훈련에 필요한 터미널 작업을 절차적으로 생성하는 자동화 파이프라인을 구축했습니다. 이 프로젝트는 지난달에만 Hugging Face에서 73,000회 이상의 다운로드 기록을 세우며 큰 주목을 받고 있습니다. 이는 단순한 PPO와 스케일링된 환경만으로도 Terminal Bench 2.0과 같은 후속 작업에서 일관되고 의미 있는 개선점을 제공함을 보여줍니다.
공간적 변이 색상 primitives 를 활용한 Gaussian Splatting 성능 향상 (SVGS)
이 기술 기사는 '공간적 변이 색상 primitives(Spatially Varying Color Primitives)'를 활용하여 Gaussian Splatting의 성능을 향상시키는 방법을 제안합니다. SVGS는 3D 장면 재구성에 사용되는 핵심 요소인 가우시안 스플래팅에 공간적으로 변화하는 색상 정보를 통합함으로써, 기존 방식보다 더 사실적이고 디테일한 시각적 결과를 얻을 수 있게 합니다. 이를 통해 고품질의 3D 콘텐츠 생성 및 시뮬레이션 분야에서 중요한 발전을 이룰 것으로 기대됩니다.
문맥에서 스킬로
이 기술 기사는 언어 모델(LLM)이 단순히 텍스트를 처리하는 것을 넘어, 주어진 '맥락(Context)'으로부터 실제적인 '기술(Skills)'을 능숙하게 학습할 수 있는지에 대한 질문을 던집니다. LLM의 성능 향상 방향 중 하나로 맥락 기반의 스킬 습득 능력 강화가 중요하게 다루어지고 있습니다. 궁극적으로, 모델이 주어진 예시나 설명적 문맥(In-context learning)을 통해 새로운 작업을 수행하는 방법을 효과적으로 파악하고 이를 실제 '기술'처럼 활용할 수 있는지가 핵심 연구 주제입니다.
지속적인 시각적 기억: LVLM 의 심층 생성을 위한 인식 유지
이 기술 기사는 대규모 시각-언어 모델(LVLM)에서 심층 생성을 수행할 때 중요한 요소인 '지속적인 시각적 기억'의 개념과 중요성을 다룹니다. LVLM이 일관되고 맥락에 맞는 출력을 생성하려면, 단순히 현재 프레임만 처리하는 것을 넘어 시간적 흐름을 아우르는 장기적인 시각적 정보를 유지하고 활용할 수 있어야 합니다. 본 연구는 이러한 지속적인 인식 유지를 통해 모델의 전반적인 성능과 깊이를 향상시키는 방법을 탐구합니다.
확산 생성 모델용 조합적 확률성 (ComboStoc)
이 논문은 확산(Diffusion) 생성 모델의 표현력을 높이기 위해 '조합적 확률성(Combinatorial Stochasticity)'이라는 개념을 제안합니다. 기존 확산 모델들이 주로 연속적인 노이즈 샘플링에 의존하는 한계를 극복하고, 이산적이거나 조합적인 구조를 도입하여 모델이 더 다양하고 복잡한 패턴을 학습할 수 있도록 합니다. 이를 통해 생성된 콘텐츠의 품질과 다양성을 동시에 향상시키는 것을 목표로 합니다.
MolmoAct2: 실세계 배포를 위한 행동 추론 모델
MolmoAct2는 실세계 환경에서 복잡한 행동을 추론하고 계획하기 위해 설계된 새로운 행동 추론 모델입니다. 이 모델은 실제 세계의 다양한 시나리오와 상호작용하는 에이전트가 보다 현실적이고 효과적인 방식으로 행동할 수 있도록 돕습니다. 특히, MolmoAct2는 이론적인 환경을 넘어 실제 배포 환경에서의 성능과 안정성을 높이는 데 초점을 맞추고 있습니다.
정부와 공공기관이 더 많은 HF 및 오픈소스 AI 를 사용해야 한다. 주권 AI 로 가자!
정부 및 공공기관들이 인공지능 분야에서 더 많은 Hugging Face(HF)와 오픈소스 AI 모델을 활용해야 한다는 주장을 담고 있습니다. 이는 국가적 차원의 '주권 AI' 구축을 목표로 하며, 실제로 대통령실 커뮤니케이션 부서가 HF에 공식 프로필을 개설하고 콘텐츠를 공유하는 등 공공기관의 참여가 시작되고 있음을 보여줍니다.
누군가 Hugging Face 모델 시각화기를 만들었습니다!! URL 을 입력하고 임의의粒度로 탐색하세요
새롭게 개발된 Hugging Face 모델 시각화기를 소개합니다. 이 도구는 사용자가 URL을 입력하는 것만으로 다양한 AI 모델의 구조를 탐색할 수 있게 해줍니다. 특히, '임의의 粒度(granularity)'로 깊이를 조절하며 모델 내부를 직관적으로 살펴볼 수 있다는 점이 가장 큰 특징입니다.
반복적 다중 에이전트 시스템, 에이전틱 월드 모델링, 그리고 AI 조직: 이번 주 최고의 논문
본 기사는 최근 주목할 만한 최신 AI 연구 논문들을 소개하며, 특히 다중 에이전트 시스템과 복잡한 환경 모델링에 초점을 맞추고 있습니다. 주요 주제로는 잠재 공간 계산을 활용하여 협력을 확장하는 반복적 다중 에이전트 프레임워크와, AI가 현실 세계를 이해하고 시뮬레이션할 수 있도록 돕는 종합적인 '에이전틱 월드 모델링' 방법론 등이 포함됩니다. 또한, 언어 모델과 과학 도메인 지식을 결합하거나(Eywa), 실제 조직 구조로 확장하는 방안 등 응용 분야의 깊이를 더한 연구들까지 다루고 있습니다.
UniVidX: 확산 사전 (Diffusion Priors) 을 통한 다양한 비디오 생성을 위한 통합 다중 모달 프레임워크
UniVidX는 확산 사전(Diffusion Priors)을 활용하여 텍스트, 이미지 등 다양한 모달리티의 입력을 받아 고품질의 비디오를 생성할 수 있도록 설계된 통합 다중 모달 프레임워크입니다. 이 시스템은 기존의 단일 모달리티 기반 비디오 생성 모델의 한계를 극복하고, 여러 종류의 입력 정보를 종합적으로 이해하여 일관성 있고 창의적인 비디오 콘텐츠를 제작하는 것을 목표로 합니다.
Web2BigTable: 인터넷 규모 정보 검색 및 추출을 위한 이중 계층 다중 에이전트 LLM 시스템
Web2BigTable은 인터넷 규모의 방대한 정보를 효과적으로 검색하고 구조화된 형태로 추출하기 위해 설계된 이중 계층 다중 에이전트 LLM 시스템입니다. 이 시스템은 복잡한 정보 탐색 과정을 여러 전문 에이전트로 분산하여 처리하며, 이를 통해 웹상의 비정형 데이터를 체계적이고 신뢰성 있게 '테이블' 형태의 구조화된 데이터로 변환하는 것을 목표로 합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.