arXiv논문2026. 06. 04. 12:04

아이의 1인칭 시점 입력을 통한 지속적인 시각 및 언어 학습

요약

아이의 1인칭 시점 경험을 모방하여 단일 연대기적 통과만으로 시각 및 언어 학습을 수행하는 BabyCL 프레임워크를 제안합니다. 이 모델은 스트리밍 시각 표현 학습과 이중 리플레이 버퍼를 결합하여 기존 오프라인 학습과의 성능 격차를 줄였습니다.

핵심 포인트

아이의 1인칭 시점(egocentric) 학습 방식 모방
단 한 번의 연대기적 통과로 지속적 멀티모달 학습 수행
이중 리플레이 버퍼를 통한 시각 및 멀티모달 이력 관리
SAYCam 벤치마크에서 기존 스트리밍 베이스라인 대비 우수한 성능

아이들은 연속적이고 시간적으로 구조화된 1인칭 시점(egocentric) 경험의 흐름으로부터 단어의 의미를 학습합니다. 최근 연구들은 신경망(neural networks) 또한 아이의 1인칭 시점 비디오 녹화본으로부터 단어-지시체 매핑(word-referent mappings)을 학습할 수 있음을 보여주었으나, 이들은 아이들이 실제로 환경을 접하는 방식과는 대조적으로 수백 에포크(epochs) 동안 섞인 데이터를 반복해서 학습합니다. 우리는 SAYCam 데이터셋을 단 한 번의 연대기적 통과(single chronological pass)로 처리하며, 스트리밍 시각 표현 학습(streaming visual representation learning)과 이미지-텍스트 대조 목적 함수(image-text contrastive objective)를 결합한 지속적 멀티모달 학습(continual multimodal learning) 프레임워크인 BabyCL을 소개합니다. BabyCL은 스트림의 다단계 시간적 분할(multi-stage temporal segmentation)과 시각적 및 멀티모달 이력을 독립적으로 관리하는 이중 리플레이 버퍼(dual replay buffer)를 결합하며, 공유 백본(shared backbone) 상에서 세 가지 대조 손실(contrastive losses)과 함께 공동 학습됩니다. 동일한 최적화 예산(optimization budget) 하에서, BabyCL은 SAYCam Labeled-S 4AFC 벤치마크에서 스트리밍 학습 베이스라인(streaming learning baselines)보다 뛰어난 성능을 보였으며, 오프라인 학습(offline training)의 상한선과의 격차를 실질적으로 좁혔습니다. 절제 연구(Ablations)를 통해 이러한 이점이 온라인 시간적 분할 창(online temporal segmentation window)의 길이와 리플레이 버퍼의 제거 규칙(eviction rule)에 대해 견고함을 확인했습니다. 종합적으로, 이러한 결과들은 아이의 실제 경험에 훨씬 더 가까운 학습 조건 하에서도 의미 있는 단어-지시체 매핑이 나타날 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

아이의 1인칭 시점 입력을 통한 지속적인 시각 및 언어 학습

요약

핵심 포인트

댓글