arXiv논문2026. 04. 23. 23:34

데이터 감사로 LVLM 성능 향상: EVIAN 프레임워크 소개

요약

대규모 비전-언어 모델(LVLMs)의 성능은 학습 데이터 품질에 크게 좌우되지만, 기존 데이터셋들은 일관성 없는 품질과 미묘한 오류를 잡아낼 수 없는 한계가 있습니다. 본 논문은 이러한 문제를 해결하기 위해 EVIAN (Explainable Visual Instruction-tuning Data AuditiNg)이라는 자동화된 프레임워크를 제안합니다. EVIAN은 모델의 응답을 시각적 설명, 주관적 추론, 사실적 주장 등 구성 요소로 분해하여 분석하는 '분해 후 평가(Decomposition-then-Evaluation)' 패러다임

핵심 포인트

EVIAN 프레임워크는 이미지-텍스트 일관성, 논리적 일관성, 사실적 정확성을 기준으로 모델 응답을 감사합니다.
모델의 응답을 구성 요소별로 분해하여 분석하는 '분해 후 평가' 방식이 핵심적인 진단 도구입니다.
EVIAN으로 정제된 소규모 고품질 데이터셋이 대규모 저품질 데이터셋보다 더 우수한 모델 성능을 보였습니다.
데이터 품질 감사 시 논리적 일관성(Logical Coherence)이 가장 중요한 요소로 밝혀졌습니다.

대규모 비전-언어 모델(LVLMs)의 역량은 학습 데이터의 질에 결정적으로 의존합니다. 하지만 현재 사용되는 데이터셋들은 품질 편차가 크고, 논리적 오류나 사실적 허위 같은 미묘한 의미론적 결함을 식별할 만큼 정교하지 못하다는 근본적인 한계가 있습니다.

이러한 문제를 해결하기 위해 연구진은 EVIAN (Explainable Visual Instruction-tuning Data AuditiNg)이라는 자동화된 프레임워크를 개발했습니다. 이 프레임워크의 핵심은 모델의 응답을 세 가지 구성 요소—시각적 설명, 주관적 추론, 사실적 주장—로 분해하여 개별적으로 분석하는 '분해 후 평가(Decomposition-then-Evaluation)' 패러다임을 적용한 것입니다.

EVIAN은 이 패러다임을 활용하여 이미지-텍스트 일관성 (Image-Text Consistency), 논리적 일관성 (Logical Coherence), 사실적 정확성 (Factual Accuracy)이라는 세 가지 축을 따라 모델 응답을 체계적으로 평가합니다. 연구 결과, 단순히 데이터의 규모를 키우는 것이 능사가 아니라는 점이 밝혀졌습니다. 오히려 EVIAN으로 엄선된 소규모의 고품질 데이터셋만으로도 훨씬 더 큰 규모의 데이터로 학습한 모델보다 우수한 성능을 보이는 경우가 많았습니다.

또한, 복잡한 감사 과정을 검증 가능한 하위 작업(subtasks)으로 나누어 진행할 때 더욱 견고한 데이터 큐레이션이 가능하며, 이 중에서도 논리적 일관성이 데이터 품질 평가에 가장 결정적인 요소임을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

데이터 감사로 LVLM 성능 향상: EVIAN 프레임워크 소개

요약

핵심 포인트

댓글