arXiv논문2026. 05. 13. 05:49

ASTRA-QA: 문서 기반 추상 질문 답변을 위한 벤치마크

요약

본 기술 기사는 문서 기반의 추상적인 질문 답변(Abstract QA) 능력을 평가하기 위한 새로운 벤치마크인 ASTRA-QA를 소개합니다. 기존 벤치마크들이 복잡한 정보 종합 및 일관성 있는 답변을 요구하는 추상적 질문 유형을 제대로 지원하지 못했던 문제를 해결하고자 합니다. ASTRA-QA는 학술 논문과 뉴스 문서를 포함한 869개의 QA 인스턴스로 구성되어 있으며, 주제 커버리지와 미지원 콘텐츠 회피 여부를 직접적으로 평가할 수 있는 명시적인 주석을 제공하여 RAG 시스템의 성능을 보다 정교하게 진단합니다.

핵심 포인트

ASTRA-QA는 문서 기반 추상 질문 답변(Abstract QA)에 특화된 새로운 벤치마크입니다.
869개의 QA 인스턴스는 학술 논문과 뉴스 문서를 아우르며, 다섯 가지 추상적 질문 유형을 다룹니다.
평가 주석에는 '답변 주제 집합'과 '선별된 미지원 주제'가 포함되어 있어 정교한 평가가 가능합니다.
이 벤치마크는 답변의 핵심 포인트 커버리지와 환각(hallucination) 여부를 직접적으로 진단하여 RAG 시스템의 강건성을 검증할 수 있게 합니다.

문서 기반 질의응답(QA)은 점차도 여러 문서를 거치거나 긴 문서에서 분산된 정보를 종합하여 일관성 있는 답변을 요구하는 추상적인 질문들을 포함하고 있습니다. 하지만 이 설정은 기존 벤치마크와 평가 방법론에 의해 여전히 제대로 지원되지 않고 있으며, 종종 안정적인 추상적 참조가 부족하거나 거친 유사도 측정 및 불안정한 대결 비교에 의존합니다. 이러한 문제를 완화하기 위해, 저희는 문서 기반의 AbSTRAct 질문 답변을 위한 벤치마크인 ASTRA-QA를 소개합니다. ASTRA-QA는 학술 논문과 뉴스 문서를 아우르는 869개의 QA 인스턴스로 구성되어 있으며, 다섯 가지 추상적 질문 유형과 세 가지 제어된 검색 범위를 다룹니다. 각 인스턴스는 답변 주제 집합(answer topic sets), 선별된 미지원 주제(curated unsupported topics), 정렬된 증거(aligned evidence)를 포함하는 명시적인 평가 주석을 갖추고 있습니다. 이러한 주석들을 기반으로, ASTRA-QA는 답변이 필수 핵심 포인트를 다루는지, 그리고 미지원 콘텐츠를 피하는지를 직접적으로 주제 커버리지와 선별된 미지원 콘텐츠 점수를 매김으로써 평가하며, 이는 광범위한 대결 비교 없이도 확장 가능한 평가를 가능하게 합니다. 바닐라(vanilla), 그래프 기반, 계층적 검색 설정을 아우르는 대표적인 Retrieval-Augmented Generation (RAG) 방법론을 사용한 실험 결과, ASTRA-QA가 커버리지, 환각(hallucination), 그리고 검색 범위 강건성에 대한 참조 기반 진단(reference-grounded diagnostics)을 제공함을 보여줍니다. 저희 데이터셋과 코드는 https://xinyangsally.github.io/astra-benchmark에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ASTRA-QA: 문서 기반 추상 질문 답변을 위한 벤치마크

요약

핵심 포인트

댓글