Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
X @huggingpapers (검증됨) 166건필터 해제
Paper: https://huggingface.co/papers/2605.06
FFDC(Flexible Fine-grained Dynamic Chunking)는 기존의 고정된 청크 실행 방식과 달리 적응형 액션 청킹을 가능하게 하여 장기적인 효율성을 유지하면서 견고성을 향상시킵니다. 이 기술은 WAM(World Action Model)의 순방향 패스 횟수를 69% 줄이고, RoboTwin 환경에서 실행 시간을 34% 단축하는 동시에 성공률을 35% 증가시키는 성능 개선을 보여줍니다.
Paper: https://huggingface.co/papers/2605.05163
이 기술 기사는 'PhysForge'라는 프로젝트를 소개하며, 물리 기반의 지식을 활용하여 모델을 훈련하고 추론하는 새로운 접근 방식을 제시합니다. 이 방법은 단순히 데이터 패턴 학습에 의존하는 기존 AI 모델의 한계를 극복하고, 현실 세계의 근본적인 물리 법칙(예: 역학, 열역학)을 통합함으로써 더욱 정확하고 신뢰성 높은 예측을 가능하게 합니다. PhysForge는 특히 과학적 시뮬레이션이나 복잡한 물리 시스템 분석이 필요한 분야에서 강력한 성능을 발휘할 것으로 기대됩니다.
ByteDance Seed releases PV-VAE
ByteDance Seed가 부분 컨텍스트를 활용하여 미래 프레임을 재구성하고 예측하는 예측 비디오 VAE(predictive Video VAE)인 PV-VAE를 출시했습니다. 이 모델은 기존 Wan2.2 대비 잠재 확산성을 개선했을 뿐만 아니라, 수렴 속도를 52% 빠르게 하고 FVD 점수를 34.42 향상시키는 성능을 보여주었습니다.
ByteDance Seed releases PV-VAE
ByteDance Seed가 예측형 비디오 VAE인 PV-VAE를 출시했습니다. 이 모델은 부분 컨텍스트 학습을 통해 미래 프레임을 재구성하고 예측하는 기능을 제공합니다. 특히, 기존 모델 Wan2.2 대비 잠재 공간 확산성을 개선하고 수렴 속도를 52% 빠르게 하며, FVD 점수를 34.42 포인트 향상시키는 성능을 보여줍니다.
X2SAM: Any Segmentation in Images and Videos
X2SAM은 이미지와 비디오에 걸쳐 임의 분할(Any Segmentation) 기능을 확장하는 통합된 멀티모달 대규모 언어 모델(MLLM)입니다. 이 모델은 시간적 일관성을 유지하기 위해 Mask Memory 모듈을 지원하며, 일반적인 분할부터 지시 기반, 추론 및 상호작용 분할에 이르기까지 다양한 유형의 분할 작업을 수행할 수 있습니다.
RLDX-1: A Vision-Language-Action model for human-like dexterous manipulation
RLDX-1은 인간과 유사한 정교한 손가락 조작(dexterous manipulation)을 목표로 하는 Vision-Language-Action 모델입니다. 이 모델은 Multi-Stream Action Transformer를 기반으로 운동 인식, 장기 기억, 물리 감지 등 다양한 모달리티 정보를 통합하여 작동합니다. ALLEX 작업에서 86.8%의 높은 성능을 달성하며 기존 모델 대비 상당한 개선을 보여주었습니다.
Project page: https:// stream-r1.github.io Paper: https://
이 프로젝트는 Stream-R1이라는 모델을 소개하며, 관련 정보와 논문, 그리고 실제 모델 파일에 대한 링크를 제공합니다. 이 구조는 사용자가 프로젝트의 전반적인 개요(Project page), 학술적 배경(Paper), 그리고 실제로 사용할 수 있는 구현체(Model) 세 가지 핵심 자원을 한 곳에서 쉽게 접근할 수 있도록 구성되어 있습니다.
Paper: https://huggingface.co/papers/2605.03269… Collection:
제공된 정보는 특정 논문(https://huggingface.co/papers/2605.03269…)과 관련 컬렉션(https://huggingface.co/collections/RLWRLD/rldx-1…)에 대한 기술적 성능 보고서입니다. 핵심 내용은 해당 모델 또는 시스템이 RTX 5090 GPU에서 실시간 추론을 수행했을 때 스텝당 43.7ms, 즉 22Hz 이상의 높은 프레임 속도를 달성했다는 것입니다. 이는 효율적인 최적화가 이루어졌음을 시사합니다.
Stream-R1: Reward-guided distillation for streaming video generation
Stream-R1은 보상 유도 증류(Reward-guided distillation) 기법을 사용하여 스트리밍 비디오 생성의 품질과 효율성을 높인 연구입니다. 이 모델은 각 픽셀에 균등한 가중치를 부여하는 대신, 프레임 간 상호 신뢰도와 공간-시간적 내부 퍼플렉시티를 활용하여 단일 보상 모델로 가중치를 재분배합니다. 그 결과, 기존의 Wan2.1 교사 모델을 초과하는 성능으로 23.1 FPS 이상의 고속 스트리밍 비디오 생성이 가능함을 보여줍니다.
Paper: https://huggingface.co/papers/2605.05 185 … Collection: https://huggingface.co/OpenSearch-VL Code: https://github.com/shawn0728/Open Search-VL
제공된 정보는 특정 논문(https://huggingface.co/papers/2605.05 185…)과 이를 활용한 오픈소스 코드 저장소(github.com/shawn0728/Open Search-VL)에 대한 링크 모음입니다. 이 자료들은 'OpenSearch-VL'이라는 프로젝트와 관련되어 있으며, 이는 아마도 시각 언어 모델(Vision-Language Model, VL)과 검색 기능을 결합한 시스템일 것으로 추정됩니다. 사용자는 해당 논문과 코드를 통해 최신 연구 동향을 파악하고 실제 구현에 활용할 수 있습니다.
OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents
OpenSearch-VL은 완전 오픈소스 프레임워크로, 최첨단 멀티모달 검색 에이전트(Multimodal Search Agents)를 훈련할 수 있도록 설계되었습니다. 이 프레임워크는 Agentic RL(강화학습)을 활용하여 커리큘럼 데이터셋 제공, 통합 도구 환경 구축, 그리고 연쇄 실패 처리를 위한 Fatal-aware GRPO 등의 고급 기능을 지원합니다. 이를 통해 다양한 성능 향상을 입증하며 강력한 검색 에이전트 개발의 표준 레시피를 제시합니다.
Project: https://stream-t1.github.io Paper:
이 기술 기사는 'Stream-T1'이라는 프로젝트를 소개하며, 관련 논문과 코드를 제공합니다. Stream-T1은 특정 분야의 최신 AI 모델 또는 시스템을 다루는 것으로 보이며, 사용자는 공식 웹사이트(Project), 학술 논문(Paper), 그리고 구현 코드(Code) 세 가지 주요 리소스를 통해 이 기술에 접근할 수 있습니다.
Stream-T1: Test-Time Scaling for Streaming Video Generation
Stream-T1은 스트리밍 비디오 생성에 테스트 타임 스케일링(Test-Time Scaling)을 도입한 프레임워크입니다. 이 기술은 계산 오버헤드를 낮추면서도 5초에서 최대 30초까지의 긴 길이 영상을 생성할 수 있게 합니다. 특히, 청크 레벨 합성(chunk-level synthesis)과 노이즈 전파 및 보상 같은 세 가지 새로운 메커니즘을 활용하여 효율성과 품질을 동시에 개선했습니다.
OpenSeeker-v2: 단순 감독 학습으로 중공업 파이프라인을 압도
OpenSeeker-v2는 단지 감독 학습(supervised learning)만을 사용하여 중공업 파이프라인을 능가하는 성능을 보여주는 학술 프로젝트입니다. 이 모델은 단 10.6K개의 예제만으로 훈련되었음에도 불구하고, BrowseComp, Humanity's Last Exam, xbench와 같은 주요 벤치마크에서 알리바바의 Tongyi DeepResearch를 포함한 기존 시스템들을 압도하는 성능을 입증했습니다.
HeavySkill: 에이전트 하네스 내의 무거운 사고 (Heavy Thinking)
HeavySkill은 복잡한 추론 과정을 병렬 궤도 생성과 순차적 성찰로 분해하여, 기존의 Best-of-N 전략을 능가하는 새로운 테스트 시간 스케일링 기법입니다. 이 방법은 Pass@N 성능에 근접하면서도 효율적인 방식으로 모델의 추론 능력을 평가할 수 있게 합니다.
Paper: https://huggingface.co/papers/2605.04036, Open-source model:
이 기술 기사는 'OpenSeeker'라는 이름의 대규모 언어 모델(LLM)을 소개하며, 해당 모델은 오픈 소스로 공개되었습니다. OpenSeeker는 30B 매개변수 규모를 가지며, SFT(Supervised Fine-Tuning) 과정을 거쳐 성능이 최적화된 버전입니다. 사용자는 Hugging Face 플랫폼을 통해 이 모델에 접근하고 활용할 수 있습니다.
OceanPile: 해양 기반 모델용 대규모 다중 모달 코퍼스
OceanPile은 소나(sonar), 수중 이미지, 과학적 텍스트 등 다양한 해양 데이터를 통합하여 구축된 대규모 다중 모달 코퍼스입니다. 이 데이터셋은 지식 그래프 기반의 파이프라인을 통해 OceanCorpus, OceanInstruction, OceanBench와 같은 세 가지 핵심 구성 요소를 생성합니다. 이를 통해 해양 환경에 특화된 AI 모델 학습 및 평가를 위한 강력한 자원을 제공합니다.
OceanPile: 해양 기반 모델용 대규모 다중 모달 코퍼스
OceanPile은 해양 환경에 특화된 대규모 다중 모달 코퍼스를 구축한 프로젝트입니다. 소나(Sonar) 데이터, 수중 이미지, 그리고 과학적 텍스트를 통합하여 OceanCorpus, OceanInstruction, OceanBench라는 세 가지 핵심 자원을 생성합니다. 이 과정은 지식 그래프 안내 파이프라인을 활용하여 해양 기반 AI 모델의 학습 및 평가에 필요한 풍부하고 구조화된 데이터를 제공하는 것을 목표로 합니다.
ICML 2026 위치 논문을 통한 답변 또는 회피를 넘어선 제 3 의 길을 제안합니다: 신뢰할 수 있는 AI 의 기초로 충실한 불확실성
이 논문은 ICML 2026에서 발표된 포지션 페이퍼로, 기존의 '답변(answer)' 또는 '회피/불확실성 표명(abstain)'이라는 이분법적 접근 방식을 넘어선 세 번째 길을 제시합니다. 핵심 제안은 AI 시스템에 '충실한 불확실성(faithful uncertainty)' 개념을 통합하여, 이를 신뢰할 수 있는 인공지능(Trustworthy AI)의 근본적인 기반으로 삼는 것입니다.
PRISM 은 다중 모달 RL 의 분포적 드리프트를 수정합니다
본 기술 기사는 다중 모달 강화 학습(Multi-modal RL)에서 발생하는 분포적 드리프트 문제를 해결하는 새로운 3단계 파이프라인을 제안합니다. 이 방법은 SFT와 RLVR 사이에 MoE 디스크리미네이터를 삽입하여 정렬 단계를 추가하며, 이를 통해 기존의 표준 SFT-to-RL 방식 대비 Qwen3-VL 모델의 정확도를 크게 향상시키는 결과를 보여줍니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.