Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

X @_akhaliq (AI 논문) 106건필터 해제

X요약

PerceptionDLM: 멀티모달 확산 언어 모델 (Multimodal Diffusion Language Models)을 이용한 병렬 영역

멀티모달 확산 언어 모델(Multimodal Diffusion Language Models)을 활용하여 병렬 영역 인지를 수행하는 PerceptionDLM 기술을 소개합니다.

multimodaldiffusion-modelslanguage-modelsperception

2시간 전0

X요약

SpatialWorld: 실제 환경 작업에서 멀티모달 에이전트 (Multimodal Agents)의 상호작용적 공간 추론 (Spatial

실제 환경 작업에서 멀티모달 에이전트의 상호작용적 공간 추론 능력을 평가하기 위한 SpatialWorld 벤치마크를 소개합니다. 에이전트가 물리적 공간을 이해하고 작업하는 능력을 측정하는 데 중점을 둡니다.

6월 9일0

X요약

SWE-Explore: 코딩 에이전트의 저장소 탐색 방식 벤치마킹

코딩 에이전트가 소프트웨어 저장소를 탐색하는 다양한 방식에 대한 벤치마킹 연구인 SWE-Explore를 소개합니다. 에이전트의 효율적인 코드베이스 이해 능력을 평가하는 데 중점을 둡니다.

6월 9일0

X요약

Code2LoRA

소프트웨어 진화 환경에 대응하기 위해 Hypernetwork를 활용하여 코드 언어 모델용 어댑터를 생성하는 Code2LoRA 기술을 소개합니다.

6월 5일0

X요약

Crafter: 다양한 입력으로부터 편집 가능한 과학적 도표 생성을 위한 멀티 에이전트 하네스 (Multi-Agent Harness)

다양한 입력 데이터를 활용하여 편집 가능한 과학적 도표를 생성하는 멀티 에이전트 프레임워크인 Crafter를 소개합니다. 연구 및 데이터 시각화 과정을 자동화하기 위한 하네스 구조를 제안합니다.

6월 2일0

X요약

GPU Forecasters: 커널 런타임 최적화(Kernel Runtime Optimization)를 위한 선택적 대리

언어 모델을 커널 런타임 최적화를 위한 선택적 대리 모델(Selective Surrogates)로 활용하는 연구를 소개합니다. GPU 성능 최적화 과정에서 언어 모델의 역할을 탐구합니다.

6월 2일0

X요약

보는 것이 아는 것은 아니다

VLM(Vision-Language Models)이 공간적 질문에 대해 답변을 유보해야 하는 상황과 그 근거를 탐구합니다. 모델이 시각적 정보를 정확히 이해하고 있는지에 대한 근본적인 질문을 던집니다.

6월 2일0

X요약

Qwen-VLA

Qwen-VLA는 다양한 작업, 환경 및 로봇 구현체를 통합하는 시각-언어-행동(Vision-Language-Action) 모델링 기술을 소개합니다.

5월 29일0

X요약

PhysX-Omni: 강체, 변형 가능 및 관절형 객체를 위한 통합 시뮬레이션 준비형 물리적 3D 생성

PhysX-Omni는 강체, 변형 가능 및 관절형 객체를 위한 통합 시뮬레이션 준비형 물리적 3D 생성 기술을 제안합니다. 이 연구는 이산 확산 모델에서 대조적 분포 매칭을 활용한 효율적인 시뮬레이션 기반 3D 생성을 다룹니다.

5월 28일0

X요약

MRT: 대규모 레이어 기반 이미지 생성 및 편집을 위한 Masked Region Transformer

대규모 레이어 기반의 이미지 생성 및 편집을 위한 Masked Region Transformer(MRT) 기술과 강체, 변형 가능, 관절형 객체를 위한 통합 물리 3D 생성 기술인 PhysX-Omni를 소개합니다.

5월 28일0

X요약

이산 확산 (Discrete Diffusion) 모델 내 분할 상환 순차적 몬테카를로 (Amortized Sequential Monte

이산 확산(Discrete Diffusion) 모델에서 분할 상환 순차적 몬테카를로(Amortized Sequential Monte Carlo)를 구현하기 위한 대조적 분포 매칭(Contrastive Distribution Matching) 기법을 다룹니다.

5월 28일0

X요약

ProRL

교정된 정책 경사 추정(Rectified Policy Gradient Estimation)을 활용하여 선제적 추천 시스템을 구현하는 강화학습 방법론인 ProRL을 소개합니다.

5월 28일0

X요약

LongMINT: 장기적 에이전트 시스템 (Long-Horizon Agent Systems)의 다중 목표 간섭 하에서의 메모리 평가

장기적 에이전트 시스템이 여러 목표를 동시에 수행할 때 발생하는 다중 목표 간섭 현상을 분석합니다. 특히 이러한 환경에서 에이전트의 메모리 성능을 평가하기 위한 LongMINT 프레임워크를 제안합니다.

5월 22일0

X요약

ESI-Bench: 인지-행동 루프를 완성하는 체화된 공간 지능을 향하여

ESI-Bench는 인지-행동 루프를 완성하기 위한 체화된 공간 지능(Embodied Spatial Intelligence) 연구를 위한 새로운 벤치마크를 제안합니다. 인지적 이해와 행동적 실행을 결합하여 공간 지능을 평가하는 데 중점을 둡니다.

5월 22일0

X요약

MiniCPM-V 4.6, @huggingface 트렌딩 1위 달성! 커뮤니티의 엄청난 지원에 깊은 감사를 드립니다…

MiniCPM-V 4.6이 Hugging Face 트렌딩 1위를 달성하며 강력한 성능을 입증했습니다. 이 모델은 매우 컴팩트한 크기임에도 불구하고 뛰어난 OCR 능력과 이미지 추론 성능을 갖추었으며, 특히 온디바이스 환경에 최적화된 효율성을 자랑합니다.

5월 19일0

X요약

NVIDIA가 Hugging Face에 Nemotron CLIMB Proxy Models를 출시했습니다

NVIDIA가 스케일링 법칙(Scaling Law) 연구를 지원하기 위해 Hugging Face에 Nemotron CLIMB Proxy Models를 출시했습니다. 이 모델들은 10T 토큰으로 학습된 62M 및 350M 파라미터 규모의 소규모 디코더 전용 모델로, 대규모 컴퓨팅 자원 없이도 거대 모델의 동작을 예측할 수 있도록 설계되었습니다.

5월 19일1

X요약

MulTaBench: 텍스트와 이미지를 활용한 멀티모달 표 형식 학습 (Multimodal Tabular Learning) 벤치마킹

텍스트와 이미지를 결합하여 표 형식 데이터를 학습하는 멀티모달 표 형식 학습(Multimodal Tabular Learning)을 위한 벤치마크인 MulTaBench를 소개합니다. 또한 물리 기반의 인간 비디오 생성을 위해 구조화된 3D 모션 보상을 사용하는 PhyMotion 논문을 함께 다룹니다.

5월 18일0

X요약

@TheInclusionAI의 1조 파라미터 밀집 모델 Ring-2.6-1T 출시

TheInclusionAI가 에이전트 워크플로우 최적화를 위해 설계된 1조 파라미터 규모의 오픈 추론 모델인 Ring-2.6-1T를 출시했습니다. 이 모델은 ClawEval에서 63.82점을 기록하며 오픈 모델 중 최상위권 성능을 보여주며, 사용자가 추론 노력 수준을 조절할 수 있는 기능을 제공합니다.

5월 18일0

X요약

거대 언어 모델 (LLM)의 안전 정렬 (Safety Alignment)을 우회하는 데 단 하나의 뉴런으로도 충분함

단 하나의 뉴런만으로 거대 언어 모델(LLM)의 안전 정렬(Safety Alignment) 메커니즘을 우회할 수 있다는 연구 결과가 제시되었습니다. 이는 LLM의 보안 취약점과 안전성 확보에 대한 근본적인 질문을 던집니다.

5월 17일1

X요약

여러분, 다시 만나서 반갑습니다! 또 다른 정말 재미있는 9b 모델을 가져왔습니다. 이번 모델은 특히...

새롭게 출시된 9B 모델은 특히 NousResearch Hermes agent의 도구 호출(tool calling) 및 에이전트 기반 코딩 워크플로우를 위해 특화되어 높은 성능을 보여줍니다. 9B 크기임에도 불구하고 하드웨어 요구 사항이 낮아 저렴한 장비에서도 실행할 수 있다는 장점이 있습니다.

5월 17일2

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드