r/LocalLLaMA분석2026. 06. 30. 06:07

VLM을 사용하여 로봇 영상을 인간보다 19배 저렴한 비용으로 하위 작업(subtasks)으로 변환했습니다

요약

VLM을 활용하여 로봇 비디오를 세부 하위 작업으로 자동 변환하는 새로운 파이프라인을 구축했습니다. 이 방식은 인간 주석 처리 대비 비용을 19배 절감하며, 장기적 과제 수행을 위한 정밀한 학습 신호 생성에 효과적입니다.

핵심 포인트

VLM을 이용한 로봇 비디오 하위 작업 자동 주석 처리
인간 대비 데이터 라벨링 비용 19배 절감
장기적 과제(long-horizon tasks)를 위한 정밀 학습 신호 제공
인간의 주석 처리 속도를 높이는 1차 라벨링 도구로 활용 가능

우리는 지난 몇 주 동안 비디오를 신중하게 주석 처리(annotating)하고, 하위 작업 주석 처리를 위해 VLM(Vision-Language Models)을 실험하는 데 시간을 보냈습니다. 이러한 유형의 주석 처리는 장기적 과제(long-horizon tasks)에 있어 매우 중요한데, 로봇은 "방을 청소해"와 같은 상위 수준의 지침보다 더 세밀한 학습 신호(learning signal)가 필요하기 때문입니다. 우리는 50회 이상의 실험을 수행했고, 이러한 유형의 주석 처리를 위한 새롭고 다양한 벤치마크(benchmark)를 생성했으며, 인간보다 19배 저렴한 파이프라인(pipeline)을 구축했습니다. 이는 라벨링(labeling)을 위한 첫 번째 단계(first pass)로서 잘 작동하며, 인간의 주석 처리 속도를 높이고 비용을 실질적으로 낮춰줍니다. 이에 관한 블로그 포스트는 여기에서 확인할 수 있습니다: https://macrodata.co/blog/annotating-robot-video-subtasks
submitted by /u/Other_Housing8453
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

VLM을 사용하여 로봇 영상을 인간보다 19배 저렴한 비용으로 하위 작업(subtasks)으로 변환했습니다

요약

핵심 포인트

댓글