EgoBabyVLM: 자연스러운 1인칭 시점 비디오 데이터로부터의 교차 모달 학습 벤치마킹

아이들은 오늘날 최고의 거대 멀티모달 모델 (Large Multimodal Models)을 능가하는 방식으로, 제한된 시각-언어 (Visuo-linguistic) 입력으로부터 놀라운 견고함을 가지고 언어 접지 (Language Grounding)를 습득합니다. 최근 연구에 따르면, 정제된 웹 데이터로 학습된 현재의 시각-언어 모델 (Vision-Language Models, VLMs)은 웨어러블 기기, 임바디드 에이전트 (Embodied Agents), 영아용 헤드캠에서 생성되는 희소하고 약하게 정렬된 (Weakly-aligned) 1인칭 시점 (Egocentric) 스트림으로 일반화하는 데 실패하며, 이 영역에서의 발전을 측정하기 위한 고정된 평가 파이프라인도 존재하지 않습니다. 우리는 자연스러운 영아 및 성인의 1인칭 시점 비디오를 포함하여, 시각 및 언어 입력 간의 의미적 정렬 (Semantic Alignment) 정도가 다양한 데이터셋으로 VLMs를 학습시키고, 멀티모달 언어 접지 (Multimodal Language Grounding) 및 단일 모달 시각 및 언어 과업을 아우르는 종합적인 제품군으로 이를 평가합니다. 이 제품군의 핵심은 Machine-DevBench로, 이는 이전의 발달 벤치마크들이 가진 학습/평가 불일치 (Train/eval mismatch)와 낮은 통계적 검정력 (Low statistical power)을 제거하기 위해, 모델의 학습 어휘를 로그 빈 (Logarithmic frequency bins)에 따라 자동으로 생성한 어휘 및 문법 역량에 대한 코퍼스 기반 벤치마크 (Corpus-grounded benchmark)입니다. 우리의 결과는 현재의 VLM 패러다임이 정제된 데이터의 긴밀한 의미적 정렬에 의존하며, 인간이 번성하는 바로 그 영역인 자연스러운 1인칭 시점 입력의 주된 특징인 약하게 정렬된 신호를 활용하는 데 실패함을 보여줍니다. 발전을 촉진하기 위해, 우리는 인간 영아가 경험하는 것과 같은 종류의 자연스러운 데이터로부터 접지된 언어 학습 (Grounded language learning)이 가능한 모델의 개발을 유도하고자 EgoBabyVLM 챌린지를 도입합니다.

Insights

EgoBabyVLM: 자연스러운 1인칭 시점 비디오 데이터로부터의 교차 모달 학습 벤치마킹

요약

핵심 포인트

댓글

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어