arXiv논문2026. 05. 21. 12:14

WikiVQABench: Wikipedia 및 Wikidata를 활용한 지식 기반 시각적 질의응답 (Visual Question

요약

WikiVQABench는 단순한 시각적 인지를 넘어 Wikipedia와 Wikidata의 외부 지식을 활용해야 풀 수 있는 지식 기반 시각적 질의응답(VQA) 벤치마크입니다. LLM을 통해 생성된 데이터셋을 인간이 직접 검토하여 사실적 정확성과 시각-텍스트 일관성을 확보하였으며, 다양한 VLM의 지식 집약적 추론 능력을 평가할 수 있도록 설계되었습니다.

핵심 포인트

Wikipedia 이미지, 캡션, Wikidata의 구조화된 지식을 결합한 새로운 VQA 벤치마크 제안
LLM 생성 후 인간 주석가가 검토하는 파이프라인을 통해 데이터의 신뢰성 및 외부 지식 필요성 보장
256M에서 90B 파라미터 규모의 15개 VLM을 대상으로 성능 평가 수행
모델 간의 지식 집약적 추론 능력 차이를 효과적으로 변별할 수 있는 벤치마크로서의 가치 입증

시각적 질의응답 (Visual Question Answering, VQA) 벤치마크는 주로 시각적 콘텐츠만으로 해결할 수 있는 지각 기반 (perception-based) 작업에 크게 중점을 두어 왔습니다. 이와 대조적으로, 많은 실제 시나리오에서는 정확한 답변을 하기 위해 이미지에서 직접 관찰할 수 없는 외부 지식을 필요로 합니다. 우리는 Wikipedia 이미지, 관련 기사 캡션, 그리고 Wikidata의 구조화된 지식을 체계적으로 결합하여 구축한, 사람이 직접 큐레이션한 지식 기반 (knowledge-grounded) VQA 벤치마크인 WikiVQABench를 소개합니다. 우리의 파이프라인은 대규모 언어 모델 (Large Language Models, LLMs)을 사용하여 후보 다지선다형 이미지-질문-답변 세트를 생성합니다. 생성된 모든 인스턴스는 이후 인간 주석가 (human annotators)에 의해 검토 및 큐레이션되어 사실적 정확성, 시각-텍스트 일관성, 그리고 각 질문이 정확한 해결을 위해 시각적 증거 외에 외부 지식을 필요로 하는지를 보장합니다. WikiVQABench는 지식 인식 시각-언어 모델 (Vision-Language Models, VLMs)을 벤치마킹하기 위해 설계된 큐레이션된 다지선다형 질문과 함께 상당한 양의 Wikipedia 이미지 컬렉션으로 구성됩니다. 15개의 VLM (256M-90B 파라미터)을 평가한 결과, 넓은 성능 범위 (24.7%-75.6% 정확도)가 나타났으며, 이는 이 벤치마크가 지식 집약적 추론 (knowledge-intensive reasoning)에 대한 모델의 능력을 효과적으로 차별화함을 입증합니다. 데이터셋과 벤치마킹 코드는 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

WikiVQABench: Wikipedia 및 Wikidata를 활용한 지식 기반 시각적 질의응답 (Visual Question

요약

핵심 포인트

댓글