arXiv논문2026. 05. 28. 12:09

LiveBrowseComp: 검색 에이전트는 실제로 검색하는가, 아니면 이미 알고 있는 내용을 확인하는 것뿐인가?

요약

LLM 검색 에이전트가 외부 검색보다 모델 내부 지식에 의존하는 '내재적 지식 의존성(IKD)' 문제를 분석합니다. 이를 평가하기 위해 최신 정보를 활용한 새로운 심층 검색 벤치마크인 LiveBrowseComp를 제안합니다.

핵심 포인트

에이전트가 검색 도구 없이도 질문의 최대 44.5%에 답변 가능
검색 쿼리의 절반 이상이 내부 가설에 기반하여 생성됨
기존 벤치마크는 발견보다 기억 기반 확인에 치중될 위험이 있음
최신 정보를 반영한 LiveBrowseComp 벤치마크 공개

LLM 기반 검색 에이전트(search agents)는 진정으로 검색을 수행하고 있는 것일까요, 아니면 이미 알고 있는 내용을 확인하기 위해 웹을 사용하고 있는 것일까요? 우리는 세 가지 진단 도구를 통해 BrowseComp에서 이 문제를 연구합니다. 우리의 분석은 내재적 지식 의존성 (Intrinsic Knowledge Dependence, IKD)을 드러냅니다. 즉, 도구(tool)에 대한 접근 권한이 있더라도 에이전트들은 외부 증거(external evidence)보다는 내재적 지식(intrinsic knowledge)—검색(retrieval) 이전에 모델에 인코딩된 정보—에 의존하는 경우가 많습니다. 에이전트들은 도구 없이도 BrowseComp 질문의 최대 44.5%에 답변하며, 검색 쿼리(search queries)의 절반 이상을 검색된 단서(retrieved leads)가 아닌 내부적으로 생성된 가설로부터 만들어내고, 정답을 뒷받침하는 증거가 제거되었을 때 폐쇄형(closed-book) 베이스라인보다 낮은 성능을 보입니다. 이러한 결과는 정적인 검색 벤치마크(static search benchmarks)가 증거 기반의 발견(evidence-driven discovery)보다는 기억에 기반한 확인(memory-backed verification)에 보상을 줄 수 있으며, 에이전트가 이미 알고 있는 것과 찾을 수 있는 것을 혼동할 수 있음을 시사합니다. 이에 따라 우리는 에이전트의 내재적 범위(intrinsic coverage)를 넘어 평가하도록 설계된 심층 검색 벤치마크(deep-search benchmark)인 LiveBrowseComp를 소개합니다. 이 벤치마크는 6개의 업데이트된 소스에서 추출되었으며, 전 세계적으로 저명한 사건은 제외되도록 필터링된, 벤치마크 구축 전 90일 이내에 발표된 사실에 답변이 의존하는 335개의 인간 작성 질문을 포함하고 있습니다. LiveBrowseComp에서 평가된 모든 에이전트는 폐쇄형 정확도(closed-book accuracy)가 2% 미만으로 떨어졌으며, 검색 증강(search-augmented) 점수는 BrowseComp 대비 25~40점 하락하였고, 기존 모델 순위는 더 이상 성능을 안정적으로 예측하지 못했습니다. LiveBrowseComp는 https://huggingface.co/datasets/Forival/LiveBrowseComp 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LiveBrowseComp: 검색 에이전트는 실제로 검색하는가, 아니면 이미 알고 있는 내용을 확인하는 것뿐인가?

요약

핵심 포인트

댓글