arXiv논문2026. 05. 21. 12:14

DeepWeb-Bench: 방대한 교차 출처 증거와 장기적 유도 과정을 요구하는 심층 연구 벤치마크

요약

DeepWeb-Bench는 에이전트의 심층 연구(Deep research) 능력을 평가하기 위해 설계된 새로운 벤치마크로, 방대한 증거 수집과 교차 출처 조정, 장기적 다단계 유도를 요구합니다. 기존 벤치마크보다 높은 난이도를 제공하며, 검색보다는 유도와 교정 단계에서 모델의 성능 차이가 극명하게 나타남을 입증했습니다.

핵심 포인트

DeepWeb-Bench는 검색, 유도, 추론, 교정의 네 가지 핵심 능력군을 평가함
심층 연구 모델의 주요 병목 현상은 검색이 아닌 유도(Derivation) 및 교정(Calibration) 단계임
강력한 모델은 불완전한 유도로 인해 실패하는 반면, 약한 모델은 환각된 정밀도(Hallucinated precision)로 인해 실패함
모델 간의 성능 일치도가 낮아 도메인별로 모델의 전문성이 다르게 나타남

에이전트가 공개 웹을 검색하고, 증거를 수집하며, 확장된 추론을 통해 정답을 도출하는 심층 연구 (Deep research)는 최첨단 언어 모델 (Frontier language models)의 주요 활용 사례입니다. 최첨단 심층 연구 제품들은 기존 벤치마크에서 높은 점수를 기록하고 있어, 현재의 평가 데이터만으로는 이들의 능력을 구별해내기가 어렵습니다. 우리는 현재의 최첨단 모델들에게 기존 벤치마크보다 실질적으로 더 어려운 심층 연구 벤치마크인 DeepWeb-Bench를 소개합니다. 난이도는 데이터 자체의 세 가지 특성에서 기인합니다: 각 작업은 방대한 증거 수집 (Evidence collection), 교차 출처 조정 (Cross-source reconciliation), 그리고 장기적인 다단계 유도 (Long-horizon multi-step derivation)를 요구합니다. 우리는 이러한 세 가지 난이도 요인을 네 가지 능력군 (검색 (Retrieval), 유도 (Derivation), 추론 (Reasoning), 교정 (Calibration))으로 나타내며, 각 능력군별로 세분화된 결과를 보고합니다. 모든 참조 정답에는 네 가지 공개 수준을 가진 출처 계보 (Source-provenance) 기록과 가능한 경우 교차 출처 확인이 동반되어, 근거 데이터에 기반한 점수 감사가 더욱 용이합니다. 우리는 9개의 최첨단 모델을 대상으로 DeepWeb-Bench를 평가하였으며, 세 가지 발견 사항을 보고합니다: (1) 검색 실패는 오류의 12-14%만을 차지하는 반면, 유도 및 교정 실패는 70% 이상을 차지하므로 검색이 병목 현상이 아닙니다; (2) 강력한 모델과 약한 모델은 질적으로 다른 방식으로 실패하며, 강력한 모델의 오류는 불완전한 유도가 지배적이고 약한 모델의 오류는 환각된 정밀도 (Hallucinated precision)가 지배적입니다; (3) 모델들은 도메인 전반에 걸쳐 진정한 전문화를 보여주며, 모델 간 일치도는 rho = 0.61에 불과하고 사례별 불일치는 18.8 퍼센트 포인트에 달합니다. 공개된 벤치마크 릴리스에는 데이터, 루브릭 (Rubrics), 그리고 평가 코드가 포함되어 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

DeepWeb-Bench: 방대한 교차 출처 증거와 장기적 유도 과정을 요구하는 심층 연구 벤치마크

요약

핵심 포인트

댓글