SemEval-2026 Task 8에서의 Caraman: 쿼리 재작성(Query Rewriting), 하이브리드 검색(Hybrid
요약
SemEval-2026 Task 8(MTRAGEval)의 Retrieval 태스크에 참여한 Caraman 시스템의 방법론과 성과를 설명합니다. LoRA로 미세 조정된 Qwen 2.5 7B를 활용한 쿼리 재작성, BM25와 밀집 검색을 결합한 하이브리드 검색, 그리고 BGE-reranker-v2-m3를 이용한 재순위화의 3단계 파이프라인을 통해 상위 8위를 기록했습니다.
핵심 포인트
- LoRA로 미세 조정된 Qwen 2.5 7B 모델을 사용하여 문맥 의존적 질문을 독립적 쿼리로 변환하는 쿼리 재작성 단계 적용
- BM25와 밀집 검색을 Reciprocal Rank Fusion(RRF)으로 결합한 하이브리드 검색 방식 채택
- BGE-reranker-v2-m3를 통한 Cross-Encoder 재순위화로 검색 정밀도 향상
- 도메인 특성에 따른 온도 조절(Temperature Tuning)이 성능 향상에 효과적임을 확인
- 도메인 인지 프롬프팅이나 다중 쿼리 확장보다 단순하고 정교한 쿼리 재작성이 더 높은 성능을 보임
우리는 네 개의 영어 도메인에 걸쳐 Task A (Retrieval)에 참여하는 SemEval-2026 Task 8 (MTRAGEval)을 위한 시스템을 설명합니다. 우리의 접근 방식은 다음과 같은 3단계 파이프라인을 채택합니다: (1) 문맥 의존적인 후속 질문을 독립적인 쿼리로 변환하는 LoRA로 미세 조정된 (fine-tuned) Qwen 2.5 7B 모델을 통한 쿼리 재작성 (query rewriting), (2) Reciprocal Rank Fusion을 통해 결합된 BM25 및 밀집 검색 (dense retrieval) 하이브리드 방식, (3) BGE-reranker-v2-m3를 이용한 Cross-Encoder 재순위화 (reranking). 공식 테스트 세트에서 이 시스템은 nDCG@5 0.531를 달성하여, 참여한 38개 시스템 중 8위를 기록했으며 주최측 베이스라인 (baseline)보다 10.7% 높은 성능을 보였습니다. 개발 과정에서의 비교 분석 결과, 기술 도메인은 결정론적 디코딩 (deterministic decoding)에서 이점을 얻고 일반 도메인은 제어된 무작위성 (controlled randomness)에서 이점을 얻는 쿼리 생성을 위한 도메인별 온도 조절 (temperature tuning)이 일관된 성능 향상을 제공하는 반면, 도메인 인지 프롬프팅 (domain-aware prompting)이나 다중 쿼리 확장 (multi-query expansion)과 같은 더 복잡한 전략들은 오히려 성능을 저하시키는 것으로 나타났습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기