본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

X @huggingpapers (검증됨) 447건필터 해제

StudioRecon: 배경과 사람을 분리하여 단 4개의 낮은 중첩 카메라만으로 동적 4D 인간 장면 재구성

StudioRecon은 배경과 사람을 분리하여 단 4개의 낮은 중첩 카메라로 역동적인 4D 인간 장면 재구성을 수행합니다. 비디오 확산 모델, SMPL 제약, 그리고 재귀적 모듈이 결합되어 고품질의 동적 장면 복원이 가능함을 보여줍니다.

studiorecon4d-reconstructionhuman-scenevideo-diffusion

Direct-OPD: 직접적인 온-정책 증류를 통한 약함에서 강함으로의 일반화

ByteDance Seed는 작은 모델의 강화학습(RL) 탐색을 밀집된 암묵적 보상으로 재사용하는 Direct-OPD 기법을 제안합니다. 이 방법을 통해 Qwen3-1.7B와 같은 소형 모델도 적은 자원으로 높은 성능 향상을 달성할 수 있음을 보여줍니다.

Alibaba의 ABot-N1

Alibaba가 개발한 ABot-N1은 시각 언어 내비게이션 파운데이션 모델입니다. 이 모델은 인지(cognition)와 제어(control)를 분리하여 복잡한 실내외 환경에서 POI 도착률을 35% 향상시켜 77.3%에 도달했습니다.

NVIDIA가 Hugging Face에 Nemotron-3 Embed 모델을 출시했습니다

NVIDIA가 Nemotron-3 Embed 모델을 Hugging Face에 공개했습니다. 이 모델은 8B 파라미터를 가진 최첨단 다국어 텍스트 임베딩 모델로, 검색 및 의미론적 검색(semantic search)에 활용될 수 있습니다.

KronQ: 그래디언트 공분산을 도입한 새로운 사후 양자화 프레임워크

KronQ는 그래디언트 공분산(gradient covariance)을 도입한 새로운 사후 양자화 프레임워크입니다. 이 프레임워크를 사용하여 Llama-3-70B 모델의 2비트 퍼플렉서티를 7.93으로 달성하며, 기존 GPTQ 방식과 차별화된 성능을 보여주었습니다.

신뢰 영역 정책 증류 (TOP-D)

Trust Region Policy Distillation (TOP-D)은 근접 교사(proximal teacher)를 동적으로 구성하여 불안정한 온-폴리시 증류 과정을 안정적인 학습 패러다임으로 전환합니다. 이 방법은 추가 계산 비용 없이 샘플 효율성과 최종 성능을 개선하는 것이 핵심입니다.

ByteDance가 Hugging Face에 UniVR-34B를 공개하다

ByteDance가 Hugging Face에 UniVR-34B 모델을 공개했습니다. 이 모델은 시각적 시연만으로 복잡한 추론, 물리 역학, 장기 계획을 학습할 수 있는 최초의 모델입니다. 텍스트 체인 없이도 높은 수준의 능력을 보여줍니다.

장기 지평선 터미널 벤치마크 (Long-Horizon Terminal-Bench)

새롭게 제시된 'Long-Horizon Terminal-Bench'는 46개의 장기 지평선 터미널 태스크를 평가하는 벤치마크입니다. 최고 모델인 Grok 4.5조차 평균 보상 점수가 0.505에 그쳐, 46개 중 단지 13개만 해결할 수 있는 것으로 나타났습니다.

ByteDance가 Hugging Face에 VR-X를 공개하다

ByteDance가 Hugging Face에 VR-X라는 새로운 대규모 벤치마크를 공개했습니다. 이 벤치마크는 16개의 다양한 소스를 아우르는 시각적 추론 능력을 측정하며, 모델이 시각 공간에서 생각하도록 학습시키는 데 사용됩니다.

InternVLA-A1.5

InternVLA-A1.5는 비전-언어 이해, 잠재적 예측, 행동을 통합한 로봇 정책 모델입니다. 이 모델은 6가지 시뮬레이션 벤치마크에서 최고 성능(SOTA)을 달성하며 뛰어난 성능을 입증했습니다.

PadCaptioner

PadCaptioner는 옴니모달 밀집 비디오 캡셔닝을 위해 설계된 3B 모델입니다. 이 모델은 높은 효율성과 강력한 근거 기반의 캡션 품질을 제공하며, 손실 없는 병렬 자기회귀 디코딩 방식을 통해 기존 7B 모델보다 우수한 성능을 입증했습니다.

EVA-Client

EVA-Client는 실제 로봇 환경에서 배포, 평가 및 데이터 수집을 위한 통합 프레임워크를 제공합니다. 또한 DeepSeek은 고처리량 병렬 생성과 부하 인식 검증을 결합하여 LLM 추론 속도를 높이는 사변적 디코딩 프레임워크인 DSpark를 출시했습니다.

SkillOpt-Lite: 더 좋고 빠른 에이전트 자체 진화

SkillOpt-Lite는 단일 슬래시 명령어 루프를 통해 에이전트를 개선하는 방법을 제시합니다. 이 방법은 LiveMath (GPT-5.4-nano)에서 기존 SkillOpt보다 25.4점 높은 성능을 기록했습니다. 또한, 스킬과 하네스를 자동 검증 게이트 롤백으로 학습하여 효율성을 높였습니다.

PaperPilot: 논문 검색 작업을 위한 다단계 워크플로우 에이전트

PaperPilot은 논문 검색 연산자 DAG 워크플로우를 유도하고 사용자 상호작용으로 개선하여 검색 정확도를 높이는 다단계 문헌 검색 에이전트입니다. 또한, Alibaba의 Wan-Streamer v0.2는 192p에서 640x368 실시간 스트리밍을 지원하며 지연 시간 보존과 장면 기반 미디샷 에이전트를 추가했습니다.

DeepSeek이 DSpark를 출시하다

DeepSeek AI가 LLM 추론 속도를 가속화하는 Speculative decoding 프레임워크인 DSpark를 출시했습니다. 이 프레임워크는 고처리량 병렬 생성과 부하 인식적 검증을 통합하여 효율성을 높였습니다. 또한, Ant Group의 LingBot-Vision은 자체 지도 ViT 백본으로 깊이 및 분할 작업에서 뛰어난 성능을 보여주었습니다.

Alibaba의 Wan-Streamer v0.2

Alibaba가 Wan-Streamer v0.2를 출시하며 실시간 스트리밍 기능을 업그레이드했습니다. 이 버전은 192p에서 640x368로 해상도를 높이면서도 지연 시간을 유지하여 25 FPS의 실시간 화상 통화가 가능합니다. 또한, 선명한 미드샷 에이전트 지원을 추가했습니다.

Ant Group의 LingBot-Vision

LingBot-Vision은 마스크 경계 모델링과 자기 지도 ViT 백본을 활용하여 밀집 공간 인식을 수행하는 모델입니다. 이 모델은 깊이, 분할, 그리고 체화된 작업 등 다양한 분야에서 강력한 성능을 보여주었습니다.

MANCE: 다양체 인식 개념 지우기

MANCE는 데이터 다양체(data manifold)에 제약을 가하여 모델 표현에서 특정 개념을 제거하는 최첨단 방법론입니다. 이 접근 방식은 정보 손실 없이 원하는 개념만 선택적으로 지우면서 다른 정보를 보존할 수 있게 합니다.

UniClawBench

UniClawBench는 능동적인 에이전트의 실세계 작업 수행 능력을 평가하는 역량 기반 벤치마크입니다. 이 벤치마크는 Skill Usage, Exploration, Long-Context Reasoning 등 5가지 핵심 기술 전반에 걸쳐 에이전트의 성능을 측정합니다.

NVIDIA가 NVFP4 양자화된 Kimi-K2.7-Code를 Hugging Face에 공개

NVIDIA가 Blackwell GPU에 최적화된 Kimi-K2.7-Code 모델을 NVFP4로 양자화하여 Hugging Face에 공개했습니다. 이 모델은 1T 매개변수 Moonshot AI 모델의 메모리 효율성을 높이면서도 정확도를 유지하는 것이 특징입니다. 또한, Tencent는 초장문 컨텍스트 처리를 위한 HiLS-Attention 모델을 출시했습니다.

1 / 23다음