ProMSA: 지식 기반 시각적 질의응답을 위한 점진적 멀티모달 검색 에이전트
요약
ProMSA는 지식 기반 시각적 질의응답(KB-VQA)을 위해 제안된 점진적 멀티모달 검색 에이전트입니다. 고정된 검색 방식 대신 도구 호출을 통해 이미지 및 텍스트 검색을 반복하며, TN-GSPO 강화학습을 통해 최적화되었습니다.
핵심 포인트
- 정적 검색 대신 적응적 멀티모달 검색 에이전트 제안
- 중복 제거를 통해 효율적인 도구 호출 수행
- TN-GSPO 강화학습을 통한 생성 길이 및 상호작용 최적화
- E-VQA 및 InfoSeek 벤치마크에서 성능 향상 입증
지식 기반 시각적 질의응답 (Knowledge-based Visual Question Answering, KB-VQA)은 모델이 이미지 이해와 외부 지식을 결합할 것을 요구합니다. 대부분의 기존 방법들은 미리 선택된 검색기 (retriever)와 정적인 top-k 설정을 사용하는 고정된 '검색 후 생성 (retrieve-then-generate)' 파이프라인을 사용하며, 이는 추론 과정 중에 적응적이지 못합니다. 우리는 KB-VQA를 위한 점진적 멀티모달 검색 에이전트인 ProMSA를 제안합니다. 이미지-질문 쌍이 주어지면, 에이전트는 명시적인 도구 호출 (tool-call) 예산 범위 내에서 중복 검색을 피하기 위한 중복 제거 (deduplication)를 수행하며 이미지 검색, 텍스트 검색 또는 중지 중 하나를 반복적으로 선택합니다. 학습을 위해, 먼저 거부 샘플링 (rejection-sampling) SFT를 사용하여 유효한 도구 사용 형식을 학습한 다음, 생성 길이와 도구 상호작용 깊이 모두에 의해 업데이트를 정규화하는 시퀀스 수준의 RL 목적 함수인 TN-GSPO를 사용하여 에이전트를 최적화합니다. E-VQA 및 InfoSeek에 대한 실험 결과, 강력한 RAG 및 에이전트 베이스라인 모델들에 비해 일관된 성능 향상을 보였으며, 검색 및 엔드투엔드 (end-to-end) 정확도가 개선되었음을 확인했습니다. 코드는 https://github.com/DingWu1021/Promsa 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기