SemEval-2026 Task 8에서의 Caraman: 쿼리 재작성(Query Rewriting), 하이브리드 검색(Hybrid

우리는 네 개의 영어 도메인에 걸쳐 Task A (Retrieval)에 참여하는 SemEval-2026 Task 8 (MTRAGEval)을 위한 시스템을 설명합니다. 우리의 접근 방식은 다음과 같은 3단계 파이프라인을 채택합니다: (1) 문맥 의존적인 후속 질문을 독립적인 쿼리로 변환하는 LoRA로 미세 조정된 (fine-tuned) Qwen 2.5 7B 모델을 통한 쿼리 재작성 (query rewriting), (2) Reciprocal Rank Fusion을 통해 결합된 BM25 및 밀집 검색 (dense retrieval) 하이브리드 방식, (3) BGE-reranker-v2-m3를 이용한 Cross-Encoder 재순위화 (reranking). 공식 테스트 세트에서 이 시스템은 nDCG@5 0.531를 달성하여, 참여한 38개 시스템 중 8위를 기록했으며 주최측 베이스라인 (baseline)보다 10.7% 높은 성능을 보였습니다. 개발 과정에서의 비교 분석 결과, 기술 도메인은 결정론적 디코딩 (deterministic decoding)에서 이점을 얻고 일반 도메인은 제어된 무작위성 (controlled randomness)에서 이점을 얻는 쿼리 생성을 위한 도메인별 온도 조절 (temperature tuning)이 일관된 성능 향상을 제공하는 반면, 도메인 인지 프롬프팅 (domain-aware prompting)이나 다중 쿼리 확장 (multi-query expansion)과 같은 더 복잡한 전략들은 오히려 성능을 저하시키는 것으로 나타났습니다.

Insights

SemEval-2026 Task 8에서의 Caraman: 쿼리 재작성(Query Rewriting), 하이브리드 검색(Hybrid

요약

핵심 포인트

댓글

1년 동안 운용하며 정착된 CLAUDE.md 양식 【복사해서 사용하는 템플릿 · 「폐지된 방침」 섹션 포함】

이 CFO는 방금 자신의 회사 주식을 저평가된 상태라고 불렀습니다 — 그가 옳다는 이유

주가 반등으로 자산 2,220억 달러를 기록하며 세계 5대 부호가 된 Zuckerberg

토론 주도 개발 (Debate-Driven Development): 코드를 두고 논쟁하는 AI 에이전트가 버그를 30% 더 많이 잡아내는 이유

이 CFO는 방금 자신의 회사 주식을 저평가된 상태라고 불렀습니다 — 그가 옳다는 이유

주가 반등으로 자산 2,220억 달러를 기록하며 세계 5대 부호가 된 Zuckerberg

토론 주도 개발 (Debate-Driven Development): 코드를 두고 논쟁하는 AI 에이전트가 버그를 30% 더 많이 잡아내는 이유