ELVA: 랭킹 기반의 범용 멀티모달 검색 탐색
요약
ELVA는 멀티모달 검색 시 발생하는 '입도 무시(Grain Blindness)' 현상을 해결하기 위한 새로운 강화학습 프레임워크입니다. 랭킹 기반의 규칙 기반 보상을 통해 모델이 부정 샘플 간의 미세한 차이를 학습하도록 유도합니다.
핵심 포인트
- 대조 학습의 한계인 입도 무시(Grain Blindness) 문제 지적
- 검증 가능한 보상을 활용한 강화학습(RLVR) 프레임워크 ELVA 제안
- 부정 샘플의 랭킹을 공동 최적화하여 유사도 격차 확대
- 다중 입도 쿼리 평가를 위한 새로운 벤치마크 MRBench 도입
- 표준 벤치마크 및 MRBench에서 SOTA 성능 달성
대조 학습 (Contrastive Learning)을 통해 멀티모달 거대 언어 모델 (MLLMs)을 활용하는 것은 범용 멀티모달 검색 (Universal Multimodal Retrieval, UMR)의 성능을 향상시키기 위한 주류 패러다임이 되었습니다. 그러나 기존 연구들은 대조 패러다임을 검색 작업에 적용할 때 발생하는 입도 무시 (Grain Blindness) 현상을 간과해 왔습니다. 입도 무시란 모델이 쿼리에 포함된 입도 수준 (Grain-level)의 정보를 간과하는 경향을 의미하며, 이는 복잡한 쿼리를 효과적으로 처리하는 데 매우 중요합니다. 이는 대조 학습이 샘플을 이진 분류 (Positive/Negative)로 취급하는 반면, 각 부정 샘플 (Negative Sample)이 담고 있는 서로 다른 정보는 무시하기 때문에 발생합니다. 이를 해결하기 위해, 우리는 부정 샘플이 긍정 샘플 (Positive Sample)과의 유사도에 따라 다르게 취급되어야 하며, 이를 통해 모델이 각 부정 샘플로부터 구별되는 입도 정보를 학습할 수 있어야 한다고 주장합니다. 본 논문에서는 랭킹 기반의 MLLMs를 통해 입도 무시를 완화하는 새롭고 규칙 기반인 강화학습 (RL) 프레임워크인 ELVA라는 단순하지만 효과적인 프레임워크를 소개합니다. 1) 보상 모델 (Reward Model)에 의존하는 대신, 우리는 검증 가능한 보상을 통한 강화학습 (Reinforcement Learning with Verifiable Rewards, RLVR)을 검색 작업으로 확장하여, 모델이 명시적인 랭킹 레이블 없이도 새로운 랭킹 동작을 탐색할 수 있도록 합니다. 2) 규칙 기반 보상을 활용함으로써, 우리의 접근 방식은 부정 샘플의 랭킹을 공동 최적화하는 동시에 긍정 샘플과 부정 샘플 사이의 유사도 격차를 확대합니다. 입도 무시를 더욱 정밀하게 측정하기 위해, 우리는 다중 입도 쿼리 시나리오를 위해 특별히 설계된 새로운 벤치마크인 MRBench를 추가로 도입합니다. ELVA는 표준 검색 벤치마크 전반에서 최첨단 (State-of-the-art) 결과를 달성하였으며, MRBench에서의 주목할 만한 13.1% 성능 향상은 입도 무시를 완화하는 데 있어 ELVA의 효과를 더욱 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기