© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

X @huggingpapers (자동 발견) 24건필터 해제

13 개 모달 평가: Claude Opus 4.6 (66.7%), GPT-5.4 (63.8%), Gemini 3.1 Pro (53.3%)

최근 벤치마크 평가에 따르면 Claude Opus 4.6이 66.7%로 가장 높은 점수를 기록하며 선두를 차지했습니다. GPT-5.4는 63.8%, Gemini 3.1 Pro는 53.3%의 순위를 보였습니다. 이 결과는 모델들이 'workspace repair'와 같은 특정 영역에서는 상당한 발전을 이루었으나, HR, 재무(finance), 그리고 다중 시스템 오케스트레이션과 같은 복잡하고 통합적인 업무 처리 능력에는 여전히 해결해야 할 과제가 남아있음을 시사합니다.

llmbenchmarkclaude-opusgpt-5.4gemini-3.1-pro

NVIDIA 가 Hugging Face 에서 AETC 를 출시했습니다

NVIDIA가 Hugging Face 플랫폼에 AETC(Physical AI Traffic Anomaly Reasoning) 데이터셋을 출시했습니다. 이 데이터셋은 44,000개의 다중 작업 비디오 어노테이션과 교통 이상 탐지를 위한 체인 오브 스로프 추론 기능을 포함하고 있습니다. 이는 AI City Challenge 2026의 트랙 3 및 비디오 이상 탐지 연구에 최적화된 자료입니다.

nvidiahuggingfaceaetc

Edit-R1: 이미지 편집을 위한 추론 검증기 기반 강화학습

Edit-R1은 단순 점수 평가를 넘어, 지시사항을 검증 가능한 원칙으로 분해하는 체인 오브 스캣(Chain-of-Thought) 검증기를 활용하여 이미지 편집을 수행하는 새로운 방법론입니다. 이 모델은 GRPO(Generalized Reward Policy Optimization)를 사용하여 미세한 보상(fine-grained rewards) 기반으로 편집 모델을 훈련시키며, 기존의 Seed-1.5-VL보다 성능이 우수하고 최대 7B 규모까지 확장 가능합니다.

image-editingreinforcement-learningchain-of-thought

NVIDIA 가 Hugging Face 에 AETC 를 출시했습니다

NVIDIA가 Hugging Face 플랫폼에 AETC(Automated Edge Traffic Computing)를 출시했습니다. 이 모델은 교통 이상 탐지(traffic anomaly detection)와 같은 복잡한 작업을 수행하기 위해 체인 오브 싱크 추론(chain-of-thought reasoning)을 포함하고 있습니다. 총 44,000개의 다중 작업 비디오 어노테이션 데이터셋을 기반으로 구축되어 실제 환경에서의 높은 성능을 기대할 수 있습니다.

nvidiahuggingfaceaetc

SketchVLM 을 통해 비전 모델이 이미지 위에 직접 설명을 그릴 수 있게 됨

SketchVLM은 비전 모델이 단순히 텍스트로 답변하는 것을 넘어, 이미지 위에 직접 설명을 스케치하여 시각적으로 추론 과정을 보여줄 수 있게 하는 기술입니다. 이 모델은 SVG 오버레이를 생성하여 추론 과정을 시각화하며, 이를 통해 시각적 추론 작업의 정확도를 크게 향상시킵니다. 특히 별도의 훈련 과정 없이(Training-free) 어떤 비전 모델에도 적용할 수 있는 범용적인 방식이라는 것이 큰 장점입니다.

vision-modelsimage-captioningsvg-overlay

ExoActor: 상상력을 통한 로봇 교육

ExoActor는 작업 수행의 타자적(third-person) 비디오를 생성하고 이를 실제 휴머노이드 행동으로 변환할 수 있는 혁신적인 프레임워크입니다. 이 시스템은 추가적인 실세계 데이터 수집 없이도 새로운 시나리오로 확장 가능하여 로봇 교육 및 시뮬레이션 분야에 큰 잠재력을 제공합니다.

roboticshumanoidvideo-generation

ExoActor: 상상을 통한 로봇 교육

ExoActor는 3인칭 비디오를 생성하여 이를 실제 휴머노이드 행동으로 변환할 수 있는 프레임워크입니다. 이 시스템은 추가적인 실세계 데이터 수집 없이도 새로운 시나리오로 확장 가능하다는 장점을 가집니다. 따라서 상상력을 기반으로 로봇의 교육 및 훈련에 활용될 수 있습니다.

roboticshumanoidvideo-generation

Paper: https://huggingface.co/papers/2604.22875… Demo:

이 기술 기사는 'SketchVLM'이라는 새로운 Vision-Language Model(VLM)을 소개합니다. 이 모델은 사용자가 손으로 그린 스케치나 다이어그램 같은 비정형적인 시각 자료를 입력받아, 이를 이해하고 상세한 설명이나 코드로 변환하는 능력을 갖추고 있습니다. 특히 복잡하거나 추상적인 개념이 담긴 스케치를 높은 정확도로 해석하여 실제 애플리케이션 개발에 활용할 수 있도록 지원합니다.

vision-language-modelvlmsketch-recognition

RoundPipe

RoundPipe는 단일 24GB GPU 환경에서 대규모 언어 모델(LLM)의 효율적인 파인튜닝을 가능하게 하는 기술입니다. 이 기술은 64K 이상의 긴 컨텍스트 길이를 지원하며, 32B 모델의 풀 파인튜닝 또는 235B 모델의 LoRA 파인튜닝을 수행할 수 있습니다. 특히, 동적 라운드 로빈 방식으로 단계 분배를 최적화하여 파이프라인 버블을 최소화함으로써 기존 대비 1.5~2.2배의 속도 향상을 제공합니다.

llmfinetuninggpu-optimization

RoundPipe: 강화학습 (RL) 을 위한 원형 데이터 파이프라인

RoundPipe는 강화학습(RL) 워크플로우를 위한 원형 데이터 파이프라인을 제공하는 도구입니다. 이 시스템은 RL 실험의 핵심 단계인 환경 설정, 데이터 수집, 모델 학습 및 평가 과정을 체계적으로 관리하고 자동화합니다. 이를 통해 연구자들이 복잡한 RL 실험 설계를 보다 효율적이고 재현 가능하게 수행할 수 있도록 지원하여, RL 연구의 생산성을 크게 향상시킵니다.

reinforcement-learningrldata-pipeline

마이크로소프트, Hugging Face 에서 DELULU FIM 벤치마크 공개

마이크로소프트가 Hugging Face에 DELULU FIM 벤치마크를 공개하며, 코드 언어 모델의 중간 삽입(fill-in-the-middle) 능력을 평가할 수 있는 새로운 데이터셋을 제공했습니다. 이 발표는 시각 생성 분야가 다음 단계로 진입하고 있음을 시사하며, 단순한 외모 재현을 넘어 구조와 인과관계에 초점을 맞춘 에이전틱 월드 모델링으로의 진화를 강조합니다.

microsofthuggingfacedelulu-fim

인터랙티브 웹사이트에는 논문을 탐구하는 기능과 퍼즐 재구성 같은 스트레스 테스트가 포함되어 있습니다.

이 기사는 인터랙티브 웹사이트가 단순한 시각적 결과물 제시를 넘어, 모델의 구조적 취약점을 테스트하는 심층적인 기능을 포함하고 있음을 설명합니다. '논문 탐구(paper explorers)'나 '퍼즐 재구성(jigsaw reconstruction)' 같은 스트레스 테스트는 모델이 겉보기에는 정확해 보여도 내부적으로는 오류가 발생할 수 있는 순간을 찾아내는 데 사용됩니다.

ai-evaluationstress-testingllms

Co-Evolving Policy Distillation (CoPD)

Co-Evolving Policy Distillation (CoPD)은 텍스트, 이미지, 비디오 추론 능력을 통합하면서도 기존의 능력을 상실하지 않도록 설계된 새로운 포스트-트레이닝 패러다임을 제시합니다. 이 방법은 양방향 온-폴리시 디스틸레이션(bidirectional on-policy distillation)을 지원하는 병렬 전문가 훈련을 핵심으로 합니다.

multimodaldistillationpolicy-learning

논문: https://huggingface.co/papers/2604.27083 … 혼합 RLVR 또는 표준 OPD 파이프라인과 달리

CoPD는 기존의 혼합 RLVR 또는 표준 OPD 파이프라인과 달리, 지속적인 RLVR 훈련 과정 중에 증류(distillation)를 도입합니다. 이 접근 방식은 전문가들이 상호 교사(mutual teachers)로서 함께 진화하도록 하여 모델 간의 발산 비용을 방지하는 것이 핵심입니다.

rlvropddistillation

시각 생성이 두 번째 반으로 진입합니다

시각 생성 기술이 새로운 발전 단계에 접어들고 있으며, 이 로드맵은 원자적 렌더링에서 에이전틱 월드 모델링으로 이어지는 5단계의 진화를 제시한다. 핵심 주장은 단순한 시각적 외모를 재현하는 것을 넘어, 사물 간의 구조와 인과관계를 이해하고 모델링하는 방향으로 초점을 옮겨야 한다는 것이다.

visual-generationworld-modelingcausality

RADIO-ViPE: 임의의 단안 카메라 영상에서 실시간 오픈보컬러블 SLAM

RADIO-ViPE는 일반적인 단안 카메라 영상만을 사용하여 3D 환경을 실시간으로 매핑하는 오픈보컬러블(open-vocabulary) SLAM 시스템입니다. 이 시스템은 단순히 공간 정보를 추정하는 것을 넘어, '스푼 찾기'와 같은 자연어 질의를 이해하고 이를 기반으로 시맨틱한 검색 및 탐색이 가능합니다. 따라서 별도의 깊이 센서나 사전 자세 정보 없이도 임의의 환경에서 강력한 SLAM 기능을 제공합니다.

slammonocular-cameraopen-vocabulary

RADIO-ViPE: 임의의 단안 카메라 영상에서 실시간 오픈보컬러블 SLAM

RADIO-ViPE는 단안 카메라로 촬영된 임의의 비디오 영상으로부터 실시간으로 오픈보컬러블 SLAM을 수행하는 시스템입니다. 이 시스템은 사용자의 자연어 쿼리(예: '스푼 찾기')를 이해하여 온라인 의미론적 매핑이 가능하며, 별도의 보정 과정이나 깊이 센서 없이도 원시 RGB 영상만으로 3D 환경을 정확하게 추정합니다.

slammonocular-cameraopen-vocabulary

논문: https://huggingface.co/papers/2604.25135 … 오픈소스 LLM 에 최적화되어 있으며, 작은 파라미터

이 논문은 오픈소스 대규모 언어 모델(LLM)을 위해 설계되었으며, 특히 파라미터 크기가 작고 컨텍스트 창이 제한적인 환경에 최적화되어 있습니다. 이 접근 방식은 다중 턴 대화 벤치마크에서 발생하는 오류 누적 문제를 줄이는 데 초점을 맞추고 있습니다.

llmopen-sourcenatural-language-processing

FAMA - 실패 인식 메타 에이전트 프레임워크

FAMA(Failure-Aware Meta-Agentic Framework)는 실패 트래젝토리를 분석하여 잠재적인 오류를 식별하고, 의사결정 과정에 필요한 컨텍스트를 사전에 주입하는 전문 에이전트 시스템입니다. 이 프레임워크는 LLM 기반의 인터랙티브 툴 사용 시 발생하는 문제를 해결하며, 실제 테스트에서 최대 27%의 성능 향상을 입증했습니다.

meta-agentllmfailure-aware

각 환경에는 완전한 사용자 페르소나, 프로젝트 포트폴리오 및 파일 관계 그래프가 포함되어 있습니다.

본 기술 기사는 에이전트가 실제 디지털 작업 공간을 얼마나 효과적으로 탐색할 수 있는지 측정하기 위한 새로운 기준(benchmark)에 대해 설명합니다. 이 기준은 각 환경에 완전한 사용자 페르소나, 프로젝트 포트폴리오, 그리고 파일 관계 그래프를 포함하여 현실적인 복잡성을 구현했습니다.

ai-agentsdigital-workspacesbenchmarking

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.