본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 30. 06:07

VLM을 사용하여 로봇 영상을 인간보다 19배 저렴한 비용으로 하위 작업(subtasks)으로 변환했습니다

요약

VLM을 활용하여 로봇 비디오를 세부 하위 작업으로 자동 변환하는 새로운 파이프라인을 구축했습니다. 이 방식은 인간 주석 처리 대비 비용을 19배 절감하며, 장기적 과제 수행을 위한 정밀한 학습 신호 생성에 효과적입니다.

핵심 포인트

  • VLM을 이용한 로봇 비디오 하위 작업 자동 주석 처리
  • 인간 대비 데이터 라벨링 비용 19배 절감
  • 장기적 과제(long-horizon tasks)를 위한 정밀 학습 신호 제공
  • 인간의 주석 처리 속도를 높이는 1차 라벨링 도구로 활용 가능

우리는 지난 몇 주 동안 비디오를 신중하게 주석 처리(annotating)하고, 하위 작업 주석 처리를 위해 VLM(Vision-Language Models)을 실험하는 데 시간을 보냈습니다. 이러한 유형의 주석 처리는 장기적 과제(long-horizon tasks)에 있어 매우 중요한데, 로봇은 "방을 청소해"와 같은 상위 수준의 지침보다 더 세밀한 학습 신호(learning signal)가 필요하기 때문입니다. 우리는 50회 이상의 실험을 수행했고, 이러한 유형의 주석 처리를 위한 새롭고 다양한 벤치마크(benchmark)를 생성했으며, 인간보다 19배 저렴한 파이프라인(pipeline)을 구축했습니다. 이는 라벨링(labeling)을 위한 첫 번째 단계(first pass)로서 잘 작동하며, 인간의 주석 처리 속도를 높이고 비용을 실질적으로 낮춰줍니다. 이에 관한 블로그 포스트는 여기에서 확인할 수 있습니다: https://macrodata.co/blog/annotating-robot-video-subtasks
submitted by /u/Other_Housing8453
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0