로봇이일상생활과 산업 현장에서 진정으로 유용하려면 단순한 지시 이행을 넘어 물리적 세계에 대한 '체화된
요약
Gemini는 로봇이 단순한 명령어 수행을 넘어 실제 환경에서 '체화된 추론(embodied reasoning)'을 할 수 있도록 모델을 업그레이드했습니다. 새로운 Gemini Robotics-ER 1.6은 공간적 이해, 다중 시점 분석 능력을 크게 향상시켜 다음 세대 물리 에이전트의 자율성을 높였습니다. 이 모델은 시각/공간 이해, 작업 계획, 성공 감지 등 로봇에 필수적인 추론 기능을 제공하며, 구글 검색이나 VLA 같은 도구를 호출하여 작업을 수행합니다. 특히, 복잡한 계기판(gauge)을 읽는 '계측기 판독' 능력을 추가하여
핵심 포인트
- Gemini Robotics-ER 1.6은 로봇이 물리적 세계를 이해하는 데 필수적인 '체화된 추론' 능력을 강화했습니다.
- 공간 추론, 다중 시점 이해 등 핵심 기능을 개선하여 자율성을 한 단계 끌어올렸습니다.
- 복잡한 계기판(gauge)을 읽는 '계측기 판독' 기능이 추가되어 산업 현장 활용도가 높아졌습니다.
- 단순 명령 수행을 넘어, 도구 호출 및 작업 계획 수립 등 고차원적인 추론이 가능합니다.
로봇이 일상생활과 산업 현장에서 진정으로 유용하려면 단순한 지시 이행을 넘어 물리적 세계에 대한 '체화된 추론(embodied reasoning)' 능력이 필수입니다. Gemini는 이를 위해 모델을 업그레이드하여 새로운 Gemini Robotics-ER 1.6을 출시했습니다.
이 버전은 공간 추론 및 다중 시점 이해를 강화함으로써 로봇의 자율성을 크게 향상시켰습니다. 이 모델은 시각/공간 이해, 작업 계획 수립, 성공 감지 등 로봇에 핵심적인 추론 능력을 제공하며, 구글 검색이나 Vision-Language-Action (VLA) 같은 외부 도구를 호출하여 작업을 수행합니다.
주요 개선점으로는 복잡한 계기판을 읽는 '계측기 판독(Instrument Reading)' 기능이 추가된 점입니다. 이는 산업 시설 검사 등 실제 현장 활용에 큰 도움이 됩니다. 또한, 기존 모델 대비 물건 세기나 정확한 위치 지정을 포함한 공간적 추론 능력이 크게 향상되었습니다.
Gemini Robotics-ER 1.6은 여러 카메라 시점의 정보를 종합적으로 이해하는 '다중 시점 추론(multi-view reasoning)'을 통해, 복잡하고 가려진 환경에서도 작업 완료 여부를 정확히 판단할 수 있습니다. 이는 로봇 자율성의 핵심 요소인 '성공 감지(Success Detection)' 능력을 높여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Google DeepMind의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기