arXiv논문2026. 06. 10. 11:16

ConvMemory v2: 대화형 메모리 검색을 위한 재현율 보존형 Top-10 증거 재순위화 모델 (Reranker)

요약

ConvMemory v2는 대화형 메모리 검색을 위해 상위 10개 후보를 재정렬하는 경량 재순위화(Reranker) 모델입니다. ms-marco-MiniLM-L-6-v2를 미세 조정하여 Recall@10을 유지하면서도 MRR과 H@1 성능을 크게 향상시켰습니다.

핵심 포인트

상위 10개 후보 세트를 유지하며 재정렬하는 재현율 보존형 구조
LoCoMo 벤치마크에서 v1 대비 MRR 및 H@1 성능 대폭 개선
Full-pool Cross-encoder 모델과의 성능 격차를 효과적으로 축소
메모리 텍스트가 핵심 메커니즘임을 부하 분석을 통해 입증

우리는 경량 ConvMemory v1 재순위화 모델 (Reranker) 다음에 위치하며, v1이 보호하는 상위 10개 후보 세트만을 재정렬하는 선택적 토큰 증거 재순위화 모델인 ConvMemory v2를 설명합니다. v2는 v1이 이미 선택한 10개의 (질의, 메모리) 쌍에 적용되는 미세 조정된 ms-marco-MiniLM-L-6-v2 교차 인코더 (Cross-encoder, 출시된 체크포인트 기준 22,713,601개 파라미터)입니다. v2는 반환되는 10개의 메모리 구성 자체를 변경하지 않으므로, Recall@10 및 Hit@10은 통계적 우연이 아니라 구조적으로 v1과 동일합니다. LoCoMo 대화형 메모리 벤치마크 (5개 시드, n = 4955 테스트 행)에서, v2는 FULL MRR을 v1의 0.5824에서 0.6560으로 (paired bootstrap +0.0734, 95% CI [+0.0645, +0.0827]), 그리고 H@1을 0.4440에서 0.5474로 높였습니다. v2는 훨씬 더 비용이 많이 드는 전체 풀 교차 인코더 (Full-pool Cross-encoder) 참조 모델 (상위 500개 대상 mxbai-rerank-large-v1, MRR 0.6688)과의 격차를 대부분 메우지만 전부는 아닙니다. FULL MRR 측면에서 v2는 mxbai_top500보다 0.013 낮지만, 두 개의 raw-dense-hard 슬라이스 (v1의 보호된 상위 10개가 mxbai의 자체 상위 10개보다 더 높은 재현율을 보이는 구간)에서는 v2가 mxbai_top500을 능가합니다. 4-arm 부하 분석 (Load-bearing ablation) 결과, 후보별 메모리 텍스트가 핵심 메커니즘임이 드러났습니다. 이를 제거, 셔플링 또는 교체할 경우 MRR이 원시 밀집 검색 (Raw dense retrieval) 미만으로 급락합니다. v2는 LoCoMo 특화 미세 조정, 명시적인 안티-숏컷 (Anti-shortcut) 추론 계약, 그리고 규율 있는 부하 분석을 갖춘 표준적인 재현율 보존형 캐스케이드 (Recall-preserving cascade) 패턴으로 이해하는 것이 가장 적절합니다. mxbai 대비 v2의 장점은 일반적인 우위라기보다 특정 슬라이스에 특화된 것입니다. 본 보고서는 v1 기술 보고서 (arXiv:2605.28062)를 확장합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ConvMemory v2: 대화형 메모리 검색을 위한 재현율 보존형 Top-10 증거 재순위화 모델 (Reranker)

요약

핵심 포인트

댓글