Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
X @huggingpapers (검증됨) 165건필터 해제
논문: https://huggingface.co/papers/2605.06376... 사전 학습 모델:
알리바바 연구진이 '연속 시간 분포 매칭(Continuous-Time Distribution Matching)' 기법을 소개하며, 기존 DMD를 이산 최적화에서 연속 최적화 방식으로 발전시켰습니다. 이 새로운 접근 방식은 온라인으로 최고 수준의 품질을 달성할 수 있게 하여, 4단계 만에 고화질 이미지를 생성하는 것을 가능하게 했습니다.
Stable-GFlowNet: 대비적 궤적 균형을 통한 다양하고 강력한 LLM 레드팀(Red-Teaming) 구축 방향
Naver AI가 개발한 Stable-GFlowNet은 생성 흐름 네트워크(Generative Flow Networks)의 불안정한 분할 함수 추정 문제를 해결하여, 모델이 다양한 특성을 유지하면서 모드 붕괴를 방지하는 기술입니다. 이 기술을 활용하여 LLM 레드팀 구축에 있어 다양하고 강력한 방향을 제시합니다.
CDM: 단 4단계 만에 고화질 이미지 생성
Alibaba 연구진이 Continuous-Time Distribution Matching (CDM)이라는 새로운 기술을 발표했습니다. 이 방법은 기존의 DMD(Discrete-Time Distribution Matching)를 연속 최적화로 발전시켜, GAN이나 보상 모델 없이도 단 4단계의 노이즈 제거 단계(NFE)만으로 최고 수준의 고화질 이미지를 생성할 수 있게 했습니다. 이를 통해 더욱 선명한 질감과 세밀한 디테일을 구현하는 것이 가능해졌습니다.
SSL: 에이전트 스킬을 위한 계층적 표현
SSL은 Schank의 고전 이론에 기반하여, 스킬을 구성하는 요소인 스케줄링, 구조, 논리를 분리하고 기계가 이해할 수 있는 형태로 표현합니다. 이 접근 방식은 텍스트 전용 기준선 대비 발견율(discovery)을 12%, 위험 평가(risk assessment)를 24% 향상시키는 등 실질적인 성능 개선 효과를 보여줍니다.
무의미한 내용이 LLM의 추론 능력을 향상시킨다
이 기술은 LLM(대규모 언어 모델)의 추론 능력을 향상시키기 위해 '무의미한 내용'(예: Lorem Ipsum)을 활용하는 방법을 제시합니다. LoPE(Lorem Ipsum Prompt Enhancement)라는 기법은 특히 GRPO와 같은 방법론이 제로-어드밴티지 문제에 직면할 때, 프롬프트 앞에 무작위 또는 의미 없는 텍스트를 추가하여 모델의 추론 경로를 '직교적'으로 열어줍니다. 이 접근 방식은 17억 개에서 70억 개의 매개변수를 가진 다양한 크기의 모델 전반에 걸쳐 수학적 성능 향상을 입증했습니다.
논문: https://huggingface.co/papers/2605.00553... S-GFN은 유창성 안정화 장치(fluency
Stable-GFlowNet은 생성 흐름 네트워크(Generative Flow Networks, GFNs)의 불안정성을 해결하기 위해 설계된 모델입니다. 이 모델은 쌍별 비교와 견고한 마스킹 기법을 활용하여 모드 붕괴를 방지하고 다양성을 유지합니다. 특히 '유창성 안정화 장치(fluency stabilizer)'를 도입함으로써 난해한 출력을 효과적으로 제거하고, 다양한 레드팀 공격 시나리오에서 높은 성능과 안정성을 입증했습니다.
MiniCPM-o 4.5: 실시간 전이중 통신 범모달 상호작용
MiniCPM-o 4.5는 실시간으로 보고, 듣고, 말하는 기능을 갖춘 9B 매개변수 모델입니다. 이 모델은 Gemini 2.5 Flash에 근접한 성능을 보이면서도 12GB RAM 미만의 엣지 디바이스에서도 구동될 수 있도록 최적화되었습니다.
https:// huggingface.co/papers/2605.06 130 … Outperforms prior skill-based and
이 논문은 언어 에이전트(language agents)를 위한 지속적인 스킬 라이브러리를 구축하는 통합 프레임워크를 제시합니다. 이 프레임워크는 단일 정책을 훈련하여 공유된 보상 신호로부터 스킬을 동시에 선택, 활용 및 증류함으로써 성능을 향상시킵니다. 그 결과, ALFWorld와 WebShop과 같은 환경에서 기존의 스킬 기반 및 강화 학습(RL) 기준 모델들을 능가하는 성능을 보여줍니다.
Skill1
Skill1은 단일 정책을 사용하여 공유된 보상 신호로부터 스킬을 동시에 선택하고 활용하며 증류(distill)하는 통합 프레임워크를 제공합니다. 이를 통해 언어 에이전트가 지속적인 스킬 라이브러리를 구축할 수 있게 합니다. 또한, ByteDance Seed는 글로벌 의미론적 조직과 로컬 텍스트 구현을 분리한 계층적 잠재 확산 언어 모델(DLM)인 Cola DLM을 제시하며, 이는 다양한 벤치마크에서 강력한 성능을 보여줍니다.
MiA-Signature: Approximating Global Activation for Long-Context Understanding
MiA-Signature는 인지과학적 영감을 받아 전역 기억 활성화(global memory activation)를 컴팩트한 서명으로 압축하는 새로운 방법을 제시합니다. 이 기술은 하모드 선택(harmonic selection)을 활용하여 방대한 컨텍스트 내의 핵심 정보를 효율적으로 포착하고, 이를 RAG 및 에이전트 시스템과 같은 복잡한 추론 환경에서 효과적으로 사용할 수 있게 합니다.
Paper: https://huggingface.co/papers/2605.06416… Bridging cognitive insights
이 논문은 메모리 기반의 대규모 언어 모델(LLM) 추론을 위한 실용적인 시스템 설계를 제시하며, 인지적 통찰력을 다루고 있습니다. 핵심 목표는 단순히 모델 성능 향상을 넘어, 인간의 기억 메커니즘과 유사하게 정보를 저장하고 활용하여 LLM이 더 깊고 일관성 있는 추론을 수행하도록 하는 것입니다. 이를 위해 메모리 관리와 검색 증강 생성(RAG) 시스템을 통합하는 새로운 프레임워크를 제안합니다.
Direct Corpus Interaction (DCI)
Direct Corpus Interaction (DCI)는 기존의 임베딩 모델과 벡터 인덱스를 사용하는 리트리버 방식의 한계를 극복하는 새로운 검색 접근법입니다. 이 방법은 에이전트가 터미널 도구(grep, find, bash 등)를 직접 사용하여 원본 코퍼스에서 정보를 검색합니다. 실험 결과, BrowseComp-Plus에서는 11%, multi-hop QA에서는 30%의 성능 향상을 입증했습니다.
Project page: https://hongcanguo.github.io/Cola-DLM/ Paper:
이 프로젝트는 Cola-DLM이라는 이름의 대규모 언어 모델(LLM)에 관한 것입니다. 관련 논문과 프로젝트 페이지가 제공되었으며, 코드와 모델은 추후 Hugging Face 플랫폼을 통해 공개될 예정입니다.
Microsoft just released Phi-Ground-Any on Hugging Face
Microsoft가 Hugging Face에 Phi-Ground-Any라는 4B 파라미터 시각 모델을 출시했습니다. 이 모델은 GUI(Graphical User Interface) 환경에서 grounding 작업을 수행하도록 설계되었으며, ScreenSpot-pro와 UI-Vision 같은 벤치마크에서 최고 수준의 성능(SOTA)을 달성했습니다. 이를 통해 AI 에이전트가 화면 요소를 높은 정확도로 인식하고 클릭할 수 있게 하는 데 기여합니다.
Model: https://huggingface.co/microsoft/Phi-Ground-Any… Paper:
이 기술 기사는 Microsoft에서 개발한 Phi-Ground 모델을 소개하며, 이 모델은 특정 도메인이나 작업에 국한되지 않고 광범위하고 일반적인 지식 기반의 추론 능력을 갖추고 있음을 강조합니다. 해당 논문과 허깅페이스 페이지를 통해 사용자는 모델의 구조와 성능을 깊이 있게 이해할 수 있으며, 이를 활용하여 다양한 NLP 애플리케이션에 적용할 수 있습니다.
MARBLE
MARBLE은 다중 보상 학습(Multi-Reward Learning)을 위한 통합 프레임워크입니다. 이 방법론은 확산 모델(Diffusion Models)에 대한 여러 개의 보상 특이 정책 기울기들을 하나의 업데이트 방향으로 조화시키는 것이 핵심입니다. 이를 통해 거의 단일한 보상 비용만으로도 동시에 다중 보상을 훈련하는 것을 가능하게 하여, 효율적이고 효과적인 학습을 지원합니다.
Paper: https:// huggingface.co/papers/2605.06 507 … Project: https://
MARBLE은 다양한 평가 지표(PickScore, HPSv2, OCR, GenEval 등)에서 발생하는 전문 샘플 문제 및 기울기 충돌 문제를 해결하는 새로운 방법론입니다. 이 기술은 복잡한 수동 단계 스케줄링 과정 없이도 효과적으로 작동하여 모델의 성능을 향상시킵니다.
When should robots trust their imagination?
FFDC(Future-Flow Decision Controller)는 World Action Models(WAM)이 미래 현실과의 일관성을 기반으로 예측된 행동을 실행할지 또는 조기에 재계획할지를 적응적으로 결정하게 해주는 경량 검증기입니다. 이 프레임워크는 고정된 청크 단위 실행 방식의 한계를 극복하고, 장기적인 효율성을 유지하면서 로봇 작업의 견고성(robustness)을 향상시킵니다. 그 결과, WAM의 순방향 패스 횟수를 크게 줄이고 실행 시간을 단축하며, 실제 로봇 및 비디오 생성 태스크에서 높은 성공률 개선을 보여줍니다.
HERMES++
HERMES++는 3D 장면 이해와 미래 기하학 예측을 단일 프레임워크로 통합한 통합 주행 세계 모델입니다. 이 모델은 두 가지 핵심 작업 모두에서 기존의 전문적인 접근 방식들보다 뛰어난 성능을 보여줍니다. 사용자는 프로젝트 페이지, 코드 저장소, 그리고 논문 링크를 통해 상세 정보를 얻을 수 있습니다.
Paper: https://huggingface.co/papers/2605.06
FFDC(Flexible Fine-grained Dynamic Chunking)는 기존의 고정된 청크 실행 방식과 달리 적응형 액션 청킹을 가능하게 하여 장기적인 효율성을 유지하면서 견고성을 향상시킵니다. 이 기술은 WAM(World Action Model)의 순방향 패스 횟수를 69% 줄이고, RoboTwin 환경에서 실행 시간을 34% 단축하는 동시에 성공률을 35% 증가시키는 성능 개선을 보여줍니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.