본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 31. 21:44

생성적 감독(Generative supervision)을 통한 체화된 지능(Embodied intelligence)의 실현

요약

Tencent Hunyuan과 Tsinghua University가 물리적 접지를 학습하는 VLM인 GEM을 발표했습니다. GEM은 사전 학습 중 깊이 지도를 예측하여 체화된 지능을 구현하며, ThriftAttention 기술을 통해 FP4 속도로 높은 품질의 어텐션 연산을 수행합니다.

핵심 포인트

  • GEM: 깊이 지도 예측을 통해 물리적 접지를 학습하는 VLM
  • 체화된 벤치마크 및 로봇 작업에서 SOTA 달성
  • ThriftAttention: FP4 속도로 FP16에 근접한 품질 구현
  • 131k 이상의 컨텍스트를 효율적으로 처리 가능

생성적 감독(Generative supervision)을 통한 체화된 지능(Embodied intelligence)의 실현

Tencent Hunyuan과 Tsinghua University는 사전 학습(Pre-training) 과정에서 깊이 지도(Depth maps)를 예측함으로써 물리적 접지(Physical grounding)를 학습하는 VLM인 GEM을 출시했습니다. GEM은 체화된 벤치마크(Embodied benchmarks) 및 실제 로봇 작업에서 최첨단(State-of-the-art) 결과를 달성했습니다.

논문(Paper):
https://huggingface.co/papers/2605.28548

모델(Model):
https://huggingface.co/zzzrw/GEM-2B
데이터셋(Dataset):
https://huggingface.co/datasets/zzzrw/GEM-250K

ThriftAttention: FP4 속도로 FP16에 근접한 품질 구현

선택적 혼합 정밀도 어텐션(Selective mixed-precision attention)
쿼리-키(Query-key) 블록의 단 5%만을 FP16으로 계산합니다.

이는 FP4에서 FP16 사이의 격차를 90% 회복하며,
131k 이상의 컨텍스트(Contexts)로 효율적으로 확장됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0