arXiv논문2026. 05. 13. 03:29

Qwen Goes Brrr: 우크라이나 다중 도메인 문서 이해를 위한 기성 RAG

요약

본 기사는 우크라이나어 다중 도메인 문서 이해를 목표로 하는 UNLP 공유 과제에 참여하여 개발된 검색 증강 생성(RAG) 파이프라인을 소개합니다. 이 시스템은 컨텍스트 청킹, 질문 인식 밀집 검색, 그리고 질문과 답변 옵션을 모두 고려하는 재순위 지정 단계를 포함합니다. 특히, Qwen3-Embedding-8B와 미세 조정된 Qwen3-Reranker-8B를 사용하여 검색 및 순위를 개선하고, 이를 통해 높은 답변 정확도(최대 0.9674)와 리더보드 점수(비공개 0.9598)를 달성했습니다.

핵심 포인트

복잡한 RAG 파이프라인은 컨텍스트 청킹, 질문 인식 검색, 그리고 답변 옵션을 조건으로 하는 재순위 지정 단계를 포함한다.
Qwen3 모델군(Embedding-8B, Reranker-8B, 32B)을 활용하여 각 단계별 성능 최적화를 달성했다.
재순위 지정과 상위 구절 사용은 각각 Recall@1을 크게 향상시키고 답변 정확도를 높이는 데 결정적인 역할을 했다.
결과는 복잡한 다운스트림 휴리스틱보다 문서 구조 보존 및 관련성 추정의 개선이 더 효과적임을 입증한다.

우리는 PDF 컬렉션에서 우크라이나어 객관식 질문에 답하고 지원 문서를 국지화해야 하는 제5회 UNLP 공유 과제에 참여했습니다. 우리는 세 가지 아이디어를 기반으로 구축된 검색 증강 파이프라인을 제안합니다: PDF의 컨텍스트 청킹(contextual chunking), 질문 인식 밀집 검색(question-aware dense retrieval) 및 질문과 답변 옵션 모두를 조건으로 하는 재순위 지정(reranking), 그리고 소수의 재순위 지정된 구절로부터의 제약적 답변 생성입니다. 우리의 최종 시스템은 검색에 Qwen3-Embedding-8B를, 구절 순위에 미세 조정된 Qwen3-Reranker-8B를, 그리고 답변 선택에 Qwen3-32B를 사용합니다. 분리된 테스트 세트에서 재순위 지정은 Recall@1을 0.6957에서 0.7935로 향상시키고, 상위 2개의 재순위 지정된 구절을 사용하는 것은 답변 정확도를 0.9348에서 0.9674로 높입니다. 우리의 최고 리더보드 실행 결과는 공개 리더보드에서 0.9452, 비공개 리더보드에서 0.9598에 도달했습니다. 우리의 결과는 엄격한 코딩 대회 제약 조건 하에서는 문서 구조를 보존하고 관련성 추정(relevance estimation)을 답변 공간 인지화하는 것이 복잡한 다운스트림 휴리스틱을 추가하는 것보다 더 효과적임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Qwen Goes Brrr: 우크라이나 다중 도메인 문서 이해를 위한 기성 RAG

요약

핵심 포인트

댓글