Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
X @huggingpapers (검증됨) 166건필터 해제
PRISM (Paper, Code, Models & Data)
PRISM은 논문, 코드, 모델 및 데이터를 통합적으로 제공하는 플랫폼 또는 프로젝트를 의미합니다. 이 프로젝트는 특정 연구 결과(논문)와 이를 구현한 실제 코드, 그리고 사용 가능한 모델과 데이터셋을 한 곳에 모아 사용자들에게 접근성을 높이는 것을 목표로 합니다.
논문: 코드, 모델 가중치 및 완전한 훈련 데이터 공개 (OpenFAST 토크나이저 포함)
이 논문은 코드, 모델 가중치, 그리고 완전한 훈련 데이터를 공개합니다. 특히 OpenFAST 토크나이저를 포함하여 저비용에서 중급 비용 플랫폼에 걸친 세 가지 새로운 데이터셋을 제공함으로써 연구의 투명성과 재현성을 크게 높였습니다.
AllenAI MolmoAct2: 실제 로봇 배포용 완전 오픈 액션 추론 모델
AllenAI의 MolmoAct2는 실제 로봇 배포 환경에 최적화된 완전 오픈 액션 추론 모델입니다. 이 모델은 720시간이라는 방대한 규모의 오픈 바이만수를 자랑하며, 전문 공간 추론 백본을 통해 지연 시간을 줄이면서도 GPT-5나 Gemini와 같은 대규모 언어 모델(LLM)에 필적하는 적응적 깊이의 추론 능력을 제공합니다.
독일어 LLM: 반복이 다양성보다 우수함
독일어 LLM 개발에서, 다양한 소음이 많은 웹 코퍼스보다 반복적이고 고품질의 학습 데이터가 더 효과적인 것으로 나타났습니다. 특히 Boldt 모델은 적은 양의 토큰만으로도 경쟁 모델 대비 최상위 성능을 달성하며 효율성을 입증했습니다.
Boltd: 새로운 AI 모델 벤치마크 및 데이터셋 소개
Boltd는 새로운 AI 모델 벤치마크와 데이터셋을 소개하는 프로젝트입니다. 이 플랫폼은 다양한 AI 모델의 성능을 객관적으로 측정할 수 있는 표준화된 환경을 제공하며, 연구자들이 모델 비교 및 개선에 필요한 신뢰성 높은 자원을 제공합니다. 이를 통해 AI 커뮤니티 전체의 모델 평가 기준을 한 단계 끌어올리는 것을 목표로 합니다.
LVLMs 의 지속적 시각 기억: 텍스트 히스토리 성장으로부터 시각 검색을 보호하는 병렬 분지
본 기술 기사는 대규모 시각 언어 모델(LVLMs)이 텍스트 히스토리가 길어짐에 따라 발생하는 '시각 신호 희석' 문제를 해결하는 방법을 제시합니다. 이를 위해, 시각 검색 정보를 텍스트 입력의 성장으로부터 독립적으로 보호하는 병렬 분지 구조를 도입했습니다. 이 방법은 Qwen3-VL 모델에 적은 파라미터(28M)만 추가하여도 복잡한 추론을 위한 지속적인 시각 인식 능력을 향상시킬 수 있습니다.
PVM: Qwen3-VL-8B 성능 향상 (66.7% → 71.5%)
PVM이라는 새로운 기법을 적용하여 Qwen3-VL-8B 모델의 평균 정확도를 66.7%에서 71.5%로 크게 향상시켰습니다. 이 방법은 최소한의 오버헤드로 복잡한 추론 작업에 필요한 지속적인 시각적 인지 능력을 제공하는 것이 특징입니다.
사용자 정의 세그먼트 맵을 통한 3D 세계 레이아웃 및 규모에 대한 정밀한 제어
이 기술은 '사용자 정의 세그먼트 맵(user-defined segment maps)'을 활용하여 3D 환경의 레이아웃과 크기를 매우 정밀하게 제어할 수 있는 방법을 제시합니다. 이를 통해 기존 방식보다 훨씬 높은 수준의 공간적 정확도와 사용자 맞춤형 설정을 구현하는 것이 가능해집니다.
Map2World: 임의의 세그먼트 맵과 텍스트에서 3D 월드 생성
Map2World는 임의의 세그먼트 맵과 텍스트 설명을 입력받아 3D 월드를 생성하는 프레임워크입니다. 이 시스템은 광범위한 환경에서도 전역 규모의 일관성을 유지하며, 특히 디테일 엔핸서 네트워크를 통해 장면의 전체적인 일관성을 해치지 않으면서 세밀한 디테일까지 보존할 수 있습니다.
올린 AI 가 훅핑 페이스에 새로운 올몰풀 긴 컨텍스트 모델을 출시했습니다
올린 AI가 새로운 올몰풀(OlmPool) 기반의 장문맥 모델을 출시했습니다. 이 모델은 8k에서 14k에 이르는 확장된 컨텍스트 길이에 대한 완전한 학습 체크포인트를 제공하며, 긴 컨텍스트 처리에 중요한 구조적 선택과 그 영향을 심층적으로 다룹니다.
Paper page: https:// huggingface.co/papers/2604.23774 ... Demo video: https://
제공된 정보는 특정 연구 논문(arXiv:2604.23774)과 이를 시연하는 데모 비디오 링크만을 포함하고 있습니다. 따라서 이 자료만으로는 구체적인 기술 내용이나 핵심 기능을 파악할 수 없습니다. 일반적으로 이러한 형식의 게시물은 최신 AI 모델, 새로운 알고리즘 또는 연구 결과를 소개하며, 사용자가 해당 논문 페이지와 영상을 통해 상세한 정보를 얻도록 유도합니다.
Prox-E: 훈련 없이 세밀한 3D 형상 편집 가능
Prox-E는 별도의 훈련 과정 없이 세밀한 3D 형상 편집을 가능하게 하는 새로운 방법론입니다. 이 기술은 3D 형상을 기하학적 원소로 추상화하고, Vision-Language Models(VLMs)의 도움을 받아 이를 편집합니다. 특히 구조적인 변화를 거치면서도 원래 객체의 정체성을 유지하도록 3D 생성을 안내하는 것이 핵심 특징입니다.
Ctx2Skill 이 CL-bench 에서 GPT-4.1 의 해결률을 11.1% 에서 16.5% 로 향상시킴
Ctx2Skill이라는 새로운 기술을 사용하여 GPT-4.1 모델의 CL-bench에서의 문제 해결률을 획기적으로 향상시켰습니다. 기존에는 11.1%에 불과했던 해결률이 Ctx2Skill 적용 후 16.5%로 증가했습니다. 이 연구는 특정 도메인 지식이나 컨텍스트를 효과적으로 모델에 주입하는 방법을 제시하며, LLM의 성능 개선 가능성을 보여줍니다.
Ctx2Skill: 자기 진화하는 컨텍스트 스킬
Ctx2Skill은 복잡한 환경에서 다중 에이전트 자기 플레이(self-play)를 활용하여 스스로 스킬을 발견하는 프레임워크입니다. 이 시스템은 인간의 라벨링이나 외부 피드백 없이도 작동하며, 생성된 자연어 스킬들은 임의의 LLM에 플러그인 형태로 연결되어 컨텍스트 학습 능력을 향상시킵니다.
Paper: https://huggingface.co/papers/2605.00416 … Project page:
이 논문은 LWD(Learning from World Dynamics)라는 접근 방식을 사용하여 로봇 정책을 학습합니다. LWD는 DIVL과 QAM이라는 기술을 활용하여 성공 사례, 실패 사례, 그리고 인간의 개입 등 다양한 경험으로부터 학습하며, 이를 통해 단일한 범용 정책을 지속적으로 개선할 수 있습니다. 특히 단순히 시연된 데이터(demonstrations)를 모방하는 것을 넘어선 것이 강점입니다.
Fine-tuning increases hallucinations
새로운 연구에 따르면, SFT(Supervised Fine-Tuning)와 같은 미세 조정 과정은 모델의 사전 학습 지식을 방해하여 사실적 오류(환각)를 유발할 수 있습니다. 이 문제를 해결하기 위해 저자들은 자기 증류(self-distillation) 기법을 제안하여 출력 분포를 정규화하고, 선택적 파라미터 고정(selective parameter freezing)을 적용하여 성능 유지와 환각 감소를 동시에 달성하는 방법을 제시했습니다.
UniVidX: 다양한 비디오 생성을 위한 통합 다중 모달 프레임워크
UniVidX는 RGB, 본질적 맵(intrinsic maps), 알파 채널 등 다양한 모달리티를 통합하여 모든 방향의 비디오 생성을 가능하게 하는 통일된 다중 모달 프레임워크입니다. 이 프레임워크는 확산 사전 지식과 확률적 조건 마스킹을 활용하며, SIGGRAPH 2026에 제출된 연구 결과물로, 비교적 적은 양의 데이터(1,000개 미만 비디오)만을 사용하여 높은 성능을 입증했습니다.
배포 중 학습: 일반적 로봇 정책용 플릿 규모 강화학습
본 기술 기사는 로봇 배포를 연속적인 학습 루프로 전환하는 새로운 프레임워크에 대해 다룹니다. 이 프레임워크는 실제 세계 경험을 활용하여 로봇 정책을 개선하고, 차원술(dexterity)과 같은 복잡한 능력을 개발합니다. 특히 16개의 듀얼 암 로봇을 사용하여 장기 임무에서 높은 성공률(95%)을 달성하는 것이 주요 성과입니다.
Web2BigTable: 인터넷 규모의 정보 추출을 위한 자기 진화 양단계 다중 에이전트 프레임워크
Web2BigTable은 인터넷 규모의 방대한 정보를 추출하기 위해 설계된 자기 진화 양단계 다중 에이전트 프레임워크입니다. 이 시스템은 오케스트레이터와 워크서라는 두 가지 역할을 가진 에이전트들이 공유 작업 공간에서 상호 협력하며 광범위하고 심층적인 검색 작업을 수행합니다. 이를 통해 기존의 정보 추출 모델 대비 WideSearch 및 XBench-DeepSearch 등 주요 벤치마크에서 현저히 높은 성능 향상을 입증했습니다.
논문: GenLIP - 고해상도 이미지 생성을 위한 새로운 접근법
GenLIP은 고해상도 이미지 생성을 위한 새로운 접근 방식을 제시하는 논문입니다. 이 방법론은 기존의 한계를 극복하고 더욱 선명하고 디테일한 이미지를 생성할 수 있도록 설계되었습니다. 이를 통해 사용자들은 높은 품질의 사실적인 이미지를 효율적으로 얻을 수 있게 됩니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.