arXiv논문2026. 06. 23. 13:42

시각-언어 설정을 위한 반복적 자기 필터링을 통한 데이터 선택

요약

시각-언어 모델(VLM) 학습을 위해 CLIP 모델을 활용한 반복적 자기 필터링(Self-Filtering) 방식을 제안합니다. 깨끗한 샘플과 다양한 샘플의 균형을 맞춘 데이터셋을 통해 추가 데이터 없이도 모델 성능을 향상시킵니다.

핵심 포인트

반복적인 자기 필터링을 통한 데이터 선택 방식 제안
고품질 샘플과 데이터 다양성 사이의 균형 유지
추가 데이터나 사전 학습 모델 없이 다운스트림 성능 개선

신경망 (Neural Networks)을 학습시키기 위해서는 방대한 양의 깨끗한 데이터를 확보하는 것이 무엇보다 중요합니다. 그러나 대규모 환경에서는 수동 검토가 불가능하며, 이로 인해 매우 노이즈가 많은 대규모 데이터셋이 생성될 수 있습니다. 성능이 뛰어난 시각-언어 모델 (Vision-Language Models)을 제작하는 데 있어 이러한 장애물을 완화하려는 시도들은 지금까지 휴리스틱 (Heuristics), 큐레이션된 참조 데이터셋, 그리고 사전 학습된 모델 (Pre-trained Models)을 사용하는 방식을 포함해 왔습니다. 본 논문에서는 CLIP 모델이 진화하는 자기 선택적 데이터셋 (Self-selected dataset)을 통해 학습되는 새로운 부트스트랩 (Bootstrapped) 방식을 제안합니다. 이 진화하는 데이터셋은 필터링된 확률 높은 깨끗한 샘플들과 전체 분포로부터 추출된 다양한 샘플들 사이의 균형을 구성합니다. 우리가 제안하는 자기 필터링 (Self-Filtering) 방법은 모델을 학습시키는 단계와 그 결과로 개선된 데이터 혼합물 (Data mixture)을 선택하는 단계 사이를 반복합니다. 제안된 접근 방식에 의해 필터링된 시각-언어 데이터셋으로 학습하면, 추가적인 데이터나 사전 학습된 모델 없이도 다운스트림 성능 (Downstream performance)을 향상시킬 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

시각-언어 설정을 위한 반복적 자기 필터링을 통한 데이터 선택

요약

핵심 포인트

댓글