LakeQA: 백만 규모 데이터 레이크(Data Lake)에 대한 탐색적 질의응답(QA) 벤치마크
요약
대규모 데이터 레이크 환경에서 검색과 추론 능력을 동시에 평가하기 위한 새로운 벤치마크인 LakeQA를 소개합니다. 9.5TB 규모의 이질적인 데이터를 기반으로 하며, 박사급 전문가의 주석을 거친 고난도 멀티홉 추론 과제를 포함합니다.
핵심 포인트
- 9.5TB 규모의 정형 및 비정형 데이터 레이크 기반 벤치마크
- 박사급 전문가가 주석을 단 고품질 멀티홉 추론 데이터셋
- 검색과 추론 능력을 동시에 요구하는 현실적인 테스트베드 제공
- 최신 LLM 모델들도 해결하기 어려운 높은 난이도 확인
최근 대규모 언어 모델(LLMs)은 증거가 명시적으로 제공되거나 쉽게 검색할 수 있는 독해 기반 질의응답(QA) 분야에서 빠른 발전을 보여주었습니다. 이와 대조적으로, 현실 세계의 질문들은 정확한 증거 문서와 쌍을 이루지 않는 경우가 많습니다. 유용한 증거는 거대한 데이터 레이크(Data Lakes)에 존재하며, 이로 인해 검색이 답변을 위한 전제 조건이 됩니다. 그러나 대규모 데이터 레이크에 대한 검색과 추론(Reasoning)을 모두 요구하는 포괄적인 벤치마크는 부족한 실정입니다. 이를 위해, 우리는 검색과 추론 능력을 공동으로 강조하는 데이터 레이크 기반 검색 중심 질의응답을 위한 포괄적인 벤치마크인 LakeQA를 소개합니다. LakeQA는 Wikipedia와 오픈 소스 정부 데이터로부터 수집된 약 9.5 TB 규모의 텍스트 리소스를 기반으로 구축되었으며, 정형(Structured) 및 비정형(Unstructured) 데이터를 모두 아우르는 이질적인 컬렉션으로 구성됩니다. 작업의 품질을 보장하기 위해, 각 샘플은 최소 한 명 이상의 박사급 전문가에 의해 주석(Annotation)이 달렸습니다. 각 작업은 암시적인 중간 단계가 포함된 장기적 멀티홉 추론(Long-horizon multi-hop reasoning)을 요구합니다. 즉, 에이전트(Agents)는 올바른 문서를 찾아낸 다음, 여러 출처에 걸친 증거를 조합하여 답변을 생성해야 합니다. 7개의 최첨단(Frontier) LLMs를 대상으로 한 실험 결과는 LakeQA가 매우 도전적인 과제임을 보여줍니다. 예를 들어, GPT-5.2는 LakeQA에서 단 18.37%의 완전 일치(Exact-match) 점수를 기록했습니다. 전반적으로 LakeQA는 현대적인 데이터 레이크에서 데이터를 찾고 분석할 수 있는 LLM 에이전트를 개발하기 위한 현실적인 테스트베드(Testbed)를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기