arXiv논문2026. 06. 29. 11:25

검색 에이전트가 질문을 던져야 하는 시점: 명확성 인지형 딥 서치(Deep Search)를 위한 DiscoBench

요약

검색 에이전트가 모호한 사용자 쿼리를 만났을 때 능동적으로 질문을 던져 명확성을 확보할 수 있는지 평가하는 새로운 벤치마크 DiscoBench를 소개합니다. 11개 도메인의 실제 사례를 통해 에이전트의 모호성 탐지 및 상호작용 능력을 다각도로 분석합니다.

핵심 포인트

모호한 쿼리가 검색 에이전트의 추론 경로를 왜곡할 수 있음
DiscoBench는 명확성 인지형 딥 서치 능력을 평가하는 벤치마크
모호성 탐지와 효과적인 질문 능력은 서로 별개의 역량임
단순 반복 검색보다 적절한 질문을 통한 명확화가 성능에 유리함

대규모 언어 모델(LLMs) 기반의 검색 에이전트(Search agents)는 사용자의 목표를 달성하기 위해 다단계 검색(multi-step retrieval)과 추론(reasoning)을 필요로 하는 복잡한 정보 탐색 작업을 해결하는 데 점점 더 많이 사용되고 있습니다. 그러나 기존의 벤치마크(benchmarks)는 종종 사용자 쿼리(user queries)가 완전하고 명시적이라고 가정하며, 실제 세계의 검색 요청이 빈번하게 모호하거나, 불충분하게 정의되거나, 심지어 사실적으로 틀릴 수 있다는 사실을 간과합니다. 딥 서치(deep search) 시나리오에서 이러한 모호함은 다단계 추론 체인을 따라 전파될 수 있으며, 에이전트를 잘못된 검색 경로로 유도할 수 있습니다. 이러한 격차를 해소하기 위해, 우리는 명확성 인지형 딥 서치(clarification-aware deep search)를 위한 벤치마크인 DiscoBench를 소개합니다. 이는 검색 에이전트가 능동적으로 모호성을 식별하고, 효과적인 명확화 질문(clarification questions)을 던지며, 사용자 상호작용을 통해 올바른 추론 경로를 회복할 수 있는지 평가하도록 설계되었습니다. DiscoBench는 11개의 실제 도메인에 걸쳐 4가지 모호성 유형을 포함하는 211개의 샘플과 463개의 모호성 인스턴스(ambiguity instances)를 포함합니다. 우리는 또한 다회차 상호작용(multi-turn interaction)을 위한 사용자 시뮬레이터(user simulator)를 설계하고, 작업 유용성(task utility), 모호성 탐지(ambiguity detection), 상호작용 전략(interaction strategy), 비용 효율성(cost efficiency)의 네 가지 관점에서 모델 성능을 평가합니다. 대표적인 LLMs를 대상으로 한 실험 결과, 모호성 탐지와 효과적인 명확화는 서로 구별되는 능력이며, 명확화를 위해 질문하는 대신 반복적으로 검색하는 것이 종종 직접 추측하는 것보다 성능이 낮게 나타남을 보여줍니다. 이는 현재의 검색 에이전트에서 검색 능력(retrieval ability)과 상호작용적 문제 해결 능력(interactive problem-solving) 사이에 결정적인 격차가 있음을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

검색 에이전트가 질문을 던져야 하는 시점: 명확성 인지형 딥 서치(Deep Search)를 위한 DiscoBench

요약

핵심 포인트

댓글