WCXB: 다중 유형 웹 콘텐츠 추출 벤치마크
요약
WCXB는 뉴스 기사에 국한되었던 기존 벤치마크의 한계를 극복하기 위해 7가지 다양한 웹 페이지 유형을 포함하는 대규모 웹 콘텐츠 추출 벤치마크입니다. 1,613개 도메인에서 수집된 2,008개의 페이지를 바탕으로 구축되었으며, LLM과 인간의 검토를 결합한 5단계 파이프라인을 통해 정밀한 정답 데이터를 생성했습니다. 실험 결과, 기존 시스템들이 기사 외의 구조화된 페이지 유형에서는 성능 차이가 크게 나타나는 사각지대가 있음을 확인했습니다.
핵심 포인트
- 기존 벤치마크의 한계(소규모, 뉴스 중심, 노후화된 데이터)를 해결하기 위한 다중 유형 데이터셋 제안
- 기사, 포럼, 제품, 문서 등 7가지 구조적으로 구별되는 페이지 유형 포함
- LLM 보조 및 인간 검토를 포함한 5단계 정답(Ground truth) 생성 파이프라인 적용
- 구조화된 페이지 유형에서 기존 추출 시스템들의 성능 격차 및 한계 발견
- HTML 소스, 주석, 레이블 등을 포함한 데이터셋을 CC-BY-4.0 라이선스로 공개
웹 콘텐츠 추출(Web content extraction) — 페이지의 주변 보일러플레이트(boilerplate)로부터 주요 콘텐츠를 분리하는 작업 — 은 검색 인덱싱(search indexing), 검색 증강 생성(RAG), NLP 데이터셋 구축, 그리고 대규모 언어 모델(LLM) 학습을 위한 전제 조건입니다. 이 분야의 발전은 기존 평가 벤치마크의 한계로 인해 제약을 받아왔으며, 기존 벤치마크들은 규모가 작고(100-800 페이지), 뉴스 기사에 국한되어 있거나, 10년 이상 된 웹 페이지를 기반으로 하고 있습니다. 우리는 기사(articles), 포럼(forums), 제품(products), 컬렉션(collections), 리스팅(listings), 문서(documentation), 서비스 페이지(service pages) 등 구조적으로 구별되는 7가지 페이지 유형에 걸쳐 1,613개 도메인에서 수집한 2,008개 웹 페이지 데이터셋인 웹 콘텐츠 추출 벤치마크(WCXB)를 소개합니다. 이 데이터셋은 페이지 유형 분포가 일치하도록 구성된 1,497페이지의 개발 세트(development set)와 511페이지의 홀드아웃 테스트 세트(held-out test set)를 포함합니다. 정답(Ground truth) 주석은 LLM 보조 초안 작성, 자동 검증, 4단계 프런티어 모델(frontier model) 검토, 스니펫 및 품질 검증 스크립트, 그리고 인간 검토로 이어지는 5단계 파이프라인을 통해 생성되었습니다. 우리는 13개의 추출 시스템(휴리스틱 방식 11개 및 신경망 방식 2개)을 평가하였으며, 상위 시스템들이 기사 유형에서는 수렴(F1 = 0.93)하는 반면, 구조화된 페이지 유형에서는 성능이 급격히 갈라짐(F1 = 0.41-0.84)을 확인했습니다. 이는 기존의 기사 전용 벤치마크에서는 보이지 않았던 사각지대를 드러냅니다. 본 데이터셋은 HTML 소스 파일, 정답 주석, 페이지 유형 레이블 및 베이스라인 결과와 함께 CC-BY-4.0 라이선스로 공개됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기