Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets
요약
본 논문은 방대한 문서 컬렉션에 대한 질문 답변(QA)의 어려움을 해결하기 위해 SLIDERS라는 새로운 프레임워크를 제안합니다. 기존 방식이 직면하는 집계 병목 현상을 극복하고자, SLIDERS는 핵심 정보를 관계형 데이터베이스로 추출하여 SQL을 통한 구조화된 상태 추론을 가능하게 합니다. 또한 출처, 근거, 메타데이터 기반의 데이터 조정 단계를 도입하여 불일치하고 중복되는 기록을 효과적으로 처리함으로써 기존 벤치마크에서 최고 성능을 달성했습니다.
핵심 포인트
- 대규모 문서 컬렉션 QA는 LLM 컨텍스트 창 한계와 집계 병목 현상이라는 문제를 안고 있다.
- SLIDERS 프레임워크는 추출된 정보를 관계형 데이터베이스로 구조화하여 SQL 기반의 확장 가능한 추론을 수행한다.
- 데이터 조정(Data Reconciliation) 단계를 도입하여 출처, 근거, 메타데이터를 활용해 정보의 일관성과 정확성을 높인다.
- 새로운 벤치마크에서 기존 최고 성능 모델 대비 현저히 높은 점수를 기록하며 우수성을 입증했다.
실제 문서 기반 질문 답변(Question Answering)은 어려운 과제입니다. 분석가들은 여러 문서와 각 문서의 서로 다른 부분을 아우르는 증거를 종합해야 합니다. 그러나 문서 컬렉션이 커짐에 따라 고정된 LLM 컨텍스트 윈도우 (Context Window) 를 초과하는 문제가 발생합니다. 일반적인 해결책으로는 문서를 청크 (Chunk) 로 분해하고 청크 수준의 출력에서 답변을 조립하는 것이지만, 이는 집계 병목 현상 (Aggregation Bottleneck) 을 초래합니다: 추출된 증거의 양이 증가함에 따라 시스템은 여전히 방대한 양의 증거를 결합하고 추론해야 합니다. 우리는 구조적 추론 (Structured Reasoning) 을 통한 긴 문서 컬렉션에 대한 질문 답변을 위한 프레임워크인 SLIDERS 를 제시합니다. SLIDERS 는 두드러진 정보를 관계형 데이터베이스로 추출하여 SQL 을 통한 지속 가능한 구조화된 상태 (Persistent Structured State) 에 대한 확장 가능한 추론을 가능하게 합니다. 이 로컬에서 추출된 표현을 글로벌하게 일관되게 만들기 위해, SLIDERS 는 출처 (Provenance), 추출 근거 (Extraction Rationales), 메타데이터를 활용하여 중복되고 불일치하며 불완전한 기록을 탐지하고 수리하는 데이터 조정 (Data Reconciliation) 단계를 도입합니다. SLIDERS 는 모든 기존 긴 컨텍스트 벤치마크에서 모든 베이스라인보다 우수한 성능을 보였으며, 강력한 베이스 LLM 의 컨텍스트 윈도우 내에 모두 들어오는 이 벤치마크들에서도 GPT-4.1 보다 평균 6.6 점 높은 점수를 기록했습니다. 또한 390 만 토큰 (3.9M tokens) 과 3 천 6 백만 토큰 (36M tokens) 의 두 가지 새로운 벤치마크에서 다음으로 가장 좋은 베이스라인보다 각각 약 19 점과 32 점 높은 성능을 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기