X요약2026. 05. 31. 21:44

생성적 감독(Generative supervision)을 통한 체화된 지능(Embodied intelligence)의 실현

요약

Tencent Hunyuan과 Tsinghua University가 물리적 접지를 학습하는 VLM인 GEM을 발표했습니다. GEM은 사전 학습 중 깊이 지도를 예측하여 체화된 지능을 구현하며, ThriftAttention 기술을 통해 FP4 속도로 높은 품질의 어텐션 연산을 수행합니다.

핵심 포인트

GEM: 깊이 지도 예측을 통해 물리적 접지를 학습하는 VLM
체화된 벤치마크 및 로봇 작업에서 SOTA 달성
ThriftAttention: FP4 속도로 FP16에 근접한 품질 구현
131k 이상의 컨텍스트를 효율적으로 처리 가능

Tencent Hunyuan과 Tsinghua University는 사전 학습(Pre-training) 과정에서 깊이 지도(Depth maps)를 예측함으로써 물리적 접지(Physical grounding)를 학습하는 VLM인 GEM을 출시했습니다. GEM은 체화된 벤치마크(Embodied benchmarks) 및 실제 로봇 작업에서 최첨단(State-of-the-art) 결과를 달성했습니다.

논문(Paper):
https://huggingface.co/papers/2605.28548
…
모델(Model):
https://huggingface.co/zzzrw/GEM-2B
데이터셋(Dataset):
https://huggingface.co/datasets/zzzrw/GEM-250K
…

ThriftAttention: FP4 속도로 FP16에 근접한 품질 구현

선택적 혼합 정밀도 어텐션(Selective mixed-precision attention)
쿼리-키(Query-key) 블록의 단 5%만을 FP16으로 계산합니다.

이는 FP4에서 FP16 사이의 격차를 90% 회복하며,
131k 이상의 컨텍스트(Contexts)로 효율적으로 확장됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

생성적 감독(Generative supervision)을 통한 체화된 지능(Embodied intelligence)의 실현

요약

핵심 포인트

댓글