arXiv논문2026. 06. 29. 11:27

Ko-WideSearch: 웹 에이전트의 철저한 집합 열거를 위한 한국어 너비 탐색 (Breadth-Search) 벤치마크

요약

웹 에이전트의 집합 열거 능력을 평가하기 위한 한국어 너비 탐색 벤치마크인 Ko-WideSearch를 제안합니다. 기존의 깊이 중심 평가에서 벗어나, 특정 엔티티의 전체 구성원과 속성을 정확히 채우는 능력을 측정합니다.

핵심 포인트

한국어 기반의 너비 탐색(Breadth-Search) 벤치마크 Ko-WideSearch 소개
합성 및 검증 파이프라인을 통한 고품질 골드 세트 구축
테이블 너비와 복합 키를 조절하여 단계별 난이도 설정 가능
웹 에이전트들이 집합은 찾으나 개별 행(row) 정보를 누락하는 경향 확인

웹 에이전트 (Web-agent) 벤치마크는 압도적으로 깊이 (depth)를 측정합니다. 즉, 일련의 제약 조건 뒤에 숨겨진 하나의 모호한 정답을 찾아내는 방식입니다. 반면, 닫힌 집합을 철저하게 열거하고 각 항목의 속성을 채우는 너비 (breadth) 측면은 거의 평가되지 않으며, 특히 영어 이외의 언어에서는 더욱 그러합니다. 너비 탐색 벤치마크를 구축하는 것 또한 어렵습니다. 골드 세트 (gold set)가 완전하며 모든 셀 (cell)이 정확함을 인증하는 것은 단일 정답을 확인하는 것보다 훨씬 더 많은 비용이 듭니다.

본 논문에서는 자동화된 합성 및 검증 (synthesize-and-verify) 파이프라인을 통해 구축된 한국어 너비 탐색 벤치마크인 \textsc{Ko-WideSearch}를 소개합니다. 각 태스크는 TV 시즌, 왕조, 리그, 행정 구역, 선거와 같은 집합-부모 엔티티 (set-parent entity)를 지정하고, 해당 엔티티의 전체 구성원과 항목별 속성 테이블을 요구하며, 이는 항목(Item-), 열(Column-), 행(Row-) F1 점수로 채점됩니다. 이 벤치마크는 제가 독립적으로 조절하는 두 가지 구조적 노브 (knobs) — 테이블 너비와 2차원 복합 키 (2-D composite key) — 에 의해 설정된 세 가지 난이도 단계에 걸쳐 190개의 엔티티와 16개 카테고리에 걸친 228개의 테이블을 포괄하며, 이를 통해 데카르트 곱 (cross-product) 구성원 수가 단계별로 0%에서 100%까지 상승합니다. 정규화 인지 비교기 (normalization-aware comparator) 하나를 골드 구축과 채점 과정에서 공유하므로, 날짜나 수치와 같이 안정적인 열들이 단순히 형식 문제로 인해 과도하게 탈락하는 것을 방지합니다.

20개의 웹 에이전트를 대상으로 테스트한 결과, 실패 양상은 일관적이었습니다. 에이전트들은 집합은 찾아내지만 행 (rows)은 찾아내지 못했습니다 (예: Row-F1 53.7 대비 Item-F1 92.8). 노브가 엄격해질수록 정확도는 꾸준히 하락하며, 더 많은 검색이나 더 많은 비용 지출로도 이 격차를 줄이지 못했습니다. 셀 단위로 분석했을 때, 어려운 부분은 형식을 맞추는 것이 아니라 올바른 값을 찾는 것이었습니다. 개방형 자유 텍스트 (free-text) 셀에서 가장 많은 실패가 발생한 반면, 날짜나 이름과 같이 표준화된 정답이 있는 셀은 대개 올바르게 도출되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Ko-WideSearch: 웹 에이전트의 철저한 집합 열거를 위한 한국어 너비 탐색 (Breadth-Search) 벤치마크

요약

핵심 포인트

댓글