본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

X @huggingpapers (검증됨) 165필터 해제

X요약

양방향 진화 탐색을 통한 자기 개선 LLM (Self-Improving LLMs with Bidirectional Evolutionary

양방향 진화 탐색(BES)은 후보군 진화와 목표 분해를 결합하여 LLM의 사후 학습 및 추론 성능을 개선하는 프레임워크입니다. 좁은 엔트로피 껍질을 탈피하고 조밀한 중간 피드백을 제공하는 것이 특징입니다.

1일 전0
X요약

NVIDIA의 AXPO, 에이전트 추론 (agentic reasoning)에서의 도구 붕괴 현상 해결

NVIDIA의 AXPO는 에이전트 추론 시 발생하는 도구 붕괴 현상을 해결하는 기술입니다. 8B Qwen3-VL 모델에 적용 시 사고 접두사를 동결하고 호출을 재샘플링하여, 훨씬 큰 32B 모델보다 뛰어난 성능을 보여줍니다.

2일 전0
X요약

ProRL: 선제적 추천을 위한 강화학습 (RL) 문제 해결

ProRL은 선제적 추천 시스템의 강화학습 문제를 해결하기 위한 새로운 방법론을 제안합니다. 단계별 보상 중심화와 위치별 베이스라인을 통해 기존 정책 경사 방식의 노이즈 문제를 극복하며, ICML 2026에 채택되었습니다.

2일 전0
X요약

NVIDIA의 Gamma-World

NVIDIA가 발표한 Gamma-World는 공유 상호작용 환경을 위한 생성형 멀티 에이전트 월드 모델입니다. 심플렉스 회전 에이전트 인코딩과 희소 허브 어텐션을 통해 다수 플레이어 환경에서도 실시간 롤아웃을 구현합니다.

2일 전0
X요약

NEO-ov: 이미지 인코더가 없는 시각-언어 모델 (Vision-Language Models)

NEO-ov는 외부 인코더나 어댑터 없이 픽셀-단어 대응 관계를 엔드투엔드로 학습하는 네이티브 파운데이션 모델입니다. 이미지, 비디오, 공간 지능을 통합한 '원-비전' 아키텍처를 통해 강력한 세밀한 인지 능력을 제공합니다.

2일 전1
X요약

LongAV-Compass

LongAV-Compass는 텍스트, 이미지, 비디오 조건을 활용한 분 단위 규모의 오디오-비주얼 생성 모델을 평가하는 통합 벤치마크입니다. 또한 SpatialBench는 공간 기초 모델의 다재다능함을 검증하기 위한 최초의 교차 패러다임 벤치마크를 소개합니다.

2일 전0
X요약

GARD: 기하학 인지 표현 디노이징 (Geometry-Aware Representation Denoising)

GARD는 3D 재구성 모델의 특징 공간에서 직접 수행되는 확산 기반 복원 기술입니다. 교차 뷰 기하학을 보존하며 손상된 입력으로부터 이미지와 3D 구조를 효과적으로 복구합니다.

3일 전0
X요약

EvalVerse: 전문적인 시네마틱 비디오 생성을 위한 파이프라인 인식 벤치마크

EvalVerse는 전문적인 시네마틱 비디오 생성을 평가하기 위한 파이프라인 인식 벤치마크입니다. 단순 프롬프트 준수를 넘어 연기, 미학, 멀티샷 시퀀싱 등 시네마틱 품질을 정밀하게 측정합니다.

3일 전1
X요약

SpatialBench

공간 파운데이션 모델의 능력을 평가하기 위한 최초의 교차 패러다임 벤치마크인 SpatialBench를 소개합니다. 또한 NVIDIA의 LocateAnything 모델은 병렬 박스 디코딩을 통해 위치 정확도를 높이고 추론 속도를 2.5배 향상시켰습니다.

3일 전0
X요약

MobileGym 출시

MobileGym은 GUI 에이전트 훈련 및 평가를 위한 브라우저 호스팅 모바일 샌드박스입니다. JSON 상태 제어와 병렬 롤아웃을 지원하며, GRPO 적용 시 실제 기기 점수를 40.7점 향상시키는 성과를 보였습니다.

3일 전0
X요약

NVIDIA가 LocateAnything를 출시했습니다

NVIDIA가 단일 단계에서 경계 상자를 디코딩하는 LocateAnything를 출시했습니다. 기존의 토큰 단위 좌표 생성 방식을 대체하여 탐지, OCR, GUI 작업의 정확도를 높이고 추론 속도를 2.5배 향상시켰습니다.

3일 전1
X요약

네이티브 멀티모달 (Native Multimodal) AI의 첫 번째 공식 로드맵 발표

Tencent Youtu Lab이 네이티브 멀티모달 AI의 첫 번째 공식 로드맵을 발표했습니다. 기존의 후기 결합 방식에서 벗어나 데이터, 학습, 추론 전반을 아우르는 네이티브 아키텍처로의 전환을 제안합니다.

3일 전0
X요약

TriSplat

TriSplat은 포즈 정보가 없는 희소한 이미지로부터 시뮬레이션에 즉시 사용 가능한 삼각형 메쉬를 생성하는 피드포워드 3D 재구성 기술입니다. 가우시안 스플래팅이나 복잡한 메쉬 추출 과정 없이 물리 엔진과 로보틱스 분야에서 활용 가능한 실제 삼각형 메쉬를 제공합니다.

4일 전0
X요약

WBench, 20개의 비디오 월드 모델 (video world models) 벤치마크

비디오 월드 모델의 성능을 평가하기 위한 새로운 벤치마크인 WBench를 소개합니다. 20개의 모델을 대상으로 품질, 제어력, 물리 법칙 등 5개 차원에서 다각도로 분석한 결과를 담고 있습니다.

4일 전0
X요약

Macaron-A2UI: 개인용 에이전트를 위한 생성형 UI (Generative UI)

Macaron-A2UI는 개인용 에이전트를 위해 실시간 상호작용이 가능한 생성형 UI를 생성하는 모델입니다. LoRA SFT 및 RL을 통해 학습되었으며, A2UI-Bench에서 높은 성능을 기록하며 기존 베이스라인을 능가했습니다.

4일 전0
X요약

Foundation Protocol

Foundation Protocol은 에이전트, 인간, 도구를 다자간 조직과 경제적 프리미티브로 통합하는 그래프 우선 조정 계층을 제안합니다. 또한 Microsoft Research의 SkillLens를 통해 에이전트 기술 수명 주기에 대한 체계적인 연구 결과를 발표했습니다.

4일 전0
X요약

DVAO: 다중 보상 강화학습 (RL)을 위한 동적 분산 적응형 어드밴티지 최적화

DVAO는 다중 보상 강화학습에서 보상 분산에 따라 가중치를 동적으로 조정하여 학습을 안정화하는 최적화 기법입니다. Alibaba의 Qwen 모델을 통해 수학적 추론 및 도구 사용 성능을 크게 향상시켰습니다.

4일 전0
X요약

StepAudio 2.5: 음성 인식, 합성 및 실시간 대화를 위한 단일 모델

StepAudio 2.5는 음성 인식(ASR), 합성(TTS), 실시간 대화를 하나의 모델로 통합한 오디오-언어 파운데이션 모델입니다. 작업 맞춤형 RLHF를 적용하여 기존 전문화된 시스템과 대등하거나 이를 능가하는 성능을 보여줍니다.

4일 전0
X요약

Microsoft Research, SkillLens 공개

Microsoft Research가 에이전트 기술 생명주기를 체계적으로 연구한 SkillLens를 공개했습니다. SkillOpt를 통해 모델 가중치 수정 없이 텍스트 공간 내에서 에이전트 기술을 학습시키며, 다양한 벤치마크에서 최고 성능을 입증했습니다.

4일 전0
X요약

SciAtlas

SciAtlas는 4,300만 편의 논문과 1억 5,700만 개의 엔티티를 기반으로 구축된 대규모 지식 그래프입니다. 이를 통해 AI 에이전트가 단순 키워드 검색을 넘어 학문 간 경계를 넘나드는 고도화된 추론을 수행할 수 있도록 지원합니다.

5일 전0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.