스트리밍 개입: 비디오 거대 언어 모델(Video LLMs)은 실시간으로 실수를 바로잡을 수 있는가?
요약
비디오 LLM이 실시간으로 사용자의 실수를 감지하고 개입할 수 있는지 평가하는 새로운 벤치마크 Ego-MC-Bench를 소개합니다. 연구진은 데이터 부족 문제를 해결하기 위해 합성 데이터셋인 Ego-CoMist를 제안하며, 이를 통해 소형 비디오 LLM의 성능을 향상시킬 수 있음을 입증했습니다.
핵심 포인트
- 실시간 실수 교정을 위한 Ego-MC-Bench 벤치마크 제안
- 기존 데이터셋의 개입 시점 및 실수 사례 부족 문제 지적
- 합성 데이터셋 Ego-CoMist를 통한 미세 조정 방법론 제시
- 에지 디바이스용 소형 비디오 LLM의 성능 개선 확인
요리를 하는 것과 같은 일상적인 기술을 배우는 것은 온라인 비디오와 같은 교육용 미디어에 점점 더 의존하고 있습니다. 이는 비디오(및 멀티모달(multimodal)) 거대 언어 모델(LLMs)을 작업 안내 보조 도구로 사용할 수 있는 가능성을 열어줍니다. 미래의 작업 안내 보조 도구가 실제 환경에서 성공하기 위한 핵심 능력은, 사용자를 안내하기 위해 실수가 명백해지는 즉시 선제적으로 개입(intervene)하는 능력입니다. 이 중요한 능력을 평가하기 위해, 우리는 현실적인 요리 시나리오에서 반응적이고 단계적인 작업 안내를 평가하기 위한 벤치마크인 Ego-MC-Bench (Mistake Corrections)를 소개합니다. 광범위한 실험 결과, Ego-MC-Bench는 최첨단(state-of-the-art) 비디오 LLMs에게 매우 도전적인 과제임을 보여줍니다. 우리는 그 주요 원인이 이 작업을 위해 모델을 미세 조정(fine-tuning)할 수 있는 학습 데이터의 가용성이 제한적이기 때문이라고 주장합니다. 광범위한 요리 비디오 데이터셋이 존재함에도 불구하고, 기존 데이터셋에는 적절한 시점의 개입과 함께 실수가 포함된 사례가 부족합니다. 이러한 데이터의 한계를 해결하기 위해, 우리는 비대화형(non-interactive) 요리 비디오를 선제적 개입을 보여주는 지도 학습(supervised)용 학습 예제로 변환하여 생성한 반사실적 합성 데이터셋(counterfactual synthetic dataset)인 Ego-CoMist를 소개합니다. 우리는 Ego-CoMist를 통한 미세 조정이 특히 에지 디바이스(edge devices)에서 보조 기능을 제공하기에 적합한, 더 작고 효율적인 비디오 LLMs의 성능 향상을 이끌어낸다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기