Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

X @huggingpapers (자동 발견) 32건필터 해제

Co-Evolving Policy Distillation (CoPD)

Co-Evolving Policy Distillation (CoPD)은 텍스트, 이미지, 비디오 추론 능력을 통합하면서도 기존의 능력을 상실하지 않도록 설계된 새로운 포스트-트레이닝 패러다임을 제시합니다. 이 방법은 양방향 온-폴리시 디스틸레이션(bidirectional on-policy distillation)을 지원하는 병렬 전문가 훈련을 핵심으로 합니다.

multimodaldistillationpolicy-learning

2일 전14

X요약

논문: https://huggingface.co/papers/2604.27083 … 혼합 RLVR 또는 표준 OPD 파이프라인과 달리

CoPD는 기존의 혼합 RLVR 또는 표준 OPD 파이프라인과 달리, 지속적인 RLVR 훈련 과정 중에 증류(distillation)를 도입합니다. 이 접근 방식은 전문가들이 상호 교사(mutual teachers)로서 함께 진화하도록 하여 모델 간의 발산 비용을 방지하는 것이 핵심입니다.

rlvropddistillation

2일 전12

X요약

시각 생성이 두 번째 반으로 진입합니다

시각 생성 기술이 새로운 발전 단계에 접어들고 있으며, 이 로드맵은 원자적 렌더링에서 에이전틱 월드 모델링으로 이어지는 5단계의 진화를 제시한다. 핵심 주장은 단순한 시각적 외모를 재현하는 것을 넘어, 사물 간의 구조와 인과관계를 이해하고 모델링하는 방향으로 초점을 옮겨야 한다는 것이다.

visual-generationworld-modelingcausality

2일 전5

X요약

RADIO-ViPE: 임의의 단안 카메라 영상에서 실시간 오픈보컬러블 SLAM

RADIO-ViPE는 일반적인 단안 카메라 영상만을 사용하여 3D 환경을 실시간으로 매핑하는 오픈보컬러블(open-vocabulary) SLAM 시스템입니다. 이 시스템은 단순히 공간 정보를 추정하는 것을 넘어, '스푼 찾기'와 같은 자연어 질의를 이해하고 이를 기반으로 시맨틱한 검색 및 탐색이 가능합니다. 따라서 별도의 깊이 센서나 사전 자세 정보 없이도 임의의 환경에서 강력한 SLAM 기능을 제공합니다.

slammonocular-cameraopen-vocabulary

2일 전4

X요약

RADIO-ViPE: 임의의 단안 카메라 영상에서 실시간 오픈보컬러블 SLAM

RADIO-ViPE는 단안 카메라로 촬영된 임의의 비디오 영상으로부터 실시간으로 오픈보컬러블 SLAM을 수행하는 시스템입니다. 이 시스템은 사용자의 자연어 쿼리(예: '스푼 찾기')를 이해하여 온라인 의미론적 매핑이 가능하며, 별도의 보정 과정이나 깊이 센서 없이도 원시 RGB 영상만으로 3D 환경을 정확하게 추정합니다.

slammonocular-cameraopen-vocabulary

2일 전3

X요약

논문: https://huggingface.co/papers/2604.25135 … 오픈소스 LLM 에 최적화되어 있으며, 작은 파라미터

이 논문은 오픈소스 대규모 언어 모델(LLM)을 위해 설계되었으며, 특히 파라미터 크기가 작고 컨텍스트 창이 제한적인 환경에 최적화되어 있습니다. 이 접근 방식은 다중 턴 대화 벤치마크에서 발생하는 오류 누적 문제를 줄이는 데 초점을 맞추고 있습니다.

llmopen-sourcenatural-language-processing

2일 전8

X요약

FAMA - 실패 인식 메타 에이전트 프레임워크

FAMA(Failure-Aware Meta-Agentic Framework)는 실패 트래젝토리를 분석하여 잠재적인 오류를 식별하고, 의사결정 과정에 필요한 컨텍스트를 사전에 주입하는 전문 에이전트 시스템입니다. 이 프레임워크는 LLM 기반의 인터랙티브 툴 사용 시 발생하는 문제를 해결하며, 실제 테스트에서 최대 27%의 성능 향상을 입증했습니다.

meta-agentllmfailure-aware

2일 전3

X요약

각 환경에는 완전한 사용자 페르소나, 프로젝트 포트폴리오 및 파일 관계 그래프가 포함되어 있습니다.

본 기술 기사는 에이전트가 실제 디지털 작업 공간을 얼마나 효과적으로 탐색할 수 있는지 측정하기 위한 새로운 기준(benchmark)에 대해 설명합니다. 이 기준은 각 환경에 완전한 사용자 페르소나, 프로젝트 포트폴리오, 그리고 파일 관계 그래프를 포함하여 현실적인 복잡성을 구현했습니다.

ai-agentsdigital-workspacesbenchmarking

2일 전3

X요약

마이크로소프트, 허깅페이스에 98개의 합성 컴퓨터 환경 공개

마이크로소프트가 허깅페이스에 총 98개의 합성 컴퓨터 환경을 공개했습니다. 이 환경들은 단순히 코드를 실행하는 것을 넘어, 현실적인 페르소나와 파일 시스템, 그리고 장기적인 계획 시나리오를 갖춘 '컴퓨터 사용 에이전트'를 훈련시키기 위해 설계되었습니다.

microsofthuggingfaceai-agents

2일 전5

X요약

Eywa 프로젝트 및 관련 논문 정보

이 문서는 'Eywa' 프로젝트와 관련된 논문, 웹사이트, 코드를 안내하는 정보 페이지입니다. Eywa는 특정 기술 분야에 대한 심층적인 연구 결과물로 보이며, 관련 학술 자료(논문)와 실제 구현 코드 및 공식 프로젝트 사이트가 제공됩니다.

eywaresearchai-project

2일 전3

X요약

에이와, LLM 과 과학 기반 모델을 연결하다

에이와(Eywa)는 영화 <아바타>에서 영감을 받은 이종 에이전트 프레임워크입니다. 이 프레임워크는 대규모 언어 모델(LLM)과 시계열, 표형 데이터 등 다양한 과학 도메인의 전문 지식을 연결하여 활용합니다. 이를 통해 결과의 정확도를 6.6% 향상시키고 토큰 사용량을 30% 절감하는 효율성을 보여줍니다.

llmagent-frameworkmultimodal

2일 전4

X요약

올렌 AI, 허깅페이스에서 올mppool 컨텍스트 확장 모델 출시

올렌 AI가 허깅페이스에 올mppool(OlmPool)이라는 이름의 컨텍스트 확장 모델을 출시했습니다. 이 70억 파라미터 모델은 총 1500억 토큰으로 학습되었으며, 특히 구조적 선택지가 긴 컨텍스트 확장에 미치는 영향을 연구하는 데 초점을 맞추어 훈련되었습니다.

allen-aillmhuggingface

2일 전4

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드