WCXB: 다중 유형 웹 콘텐츠 추출 벤치마크

웹 콘텐츠 추출(Web content extraction) — 페이지의 주변 보일러플레이트(boilerplate)로부터 주요 콘텐츠를 분리하는 작업 — 은 검색 인덱싱(search indexing), 검색 증강 생성(RAG), NLP 데이터셋 구축, 그리고 대규모 언어 모델(LLM) 학습을 위한 전제 조건입니다. 이 분야의 발전은 기존 평가 벤치마크의 한계로 인해 제약을 받아왔으며, 기존 벤치마크들은 규모가 작고(100-800 페이지), 뉴스 기사에 국한되어 있거나, 10년 이상 된 웹 페이지를 기반으로 하고 있습니다. 우리는 기사(articles), 포럼(forums), 제품(products), 컬렉션(collections), 리스팅(listings), 문서(documentation), 서비스 페이지(service pages) 등 구조적으로 구별되는 7가지 페이지 유형에 걸쳐 1,613개 도메인에서 수집한 2,008개 웹 페이지 데이터셋인 웹 콘텐츠 추출 벤치마크(WCXB)를 소개합니다. 이 데이터셋은 페이지 유형 분포가 일치하도록 구성된 1,497페이지의 개발 세트(development set)와 511페이지의 홀드아웃 테스트 세트(held-out test set)를 포함합니다. 정답(Ground truth) 주석은 LLM 보조 초안 작성, 자동 검증, 4단계 프런티어 모델(frontier model) 검토, 스니펫 및 품질 검증 스크립트, 그리고 인간 검토로 이어지는 5단계 파이프라인을 통해 생성되었습니다. 우리는 13개의 추출 시스템(휴리스틱 방식 11개 및 신경망 방식 2개)을 평가하였으며, 상위 시스템들이 기사 유형에서는 수렴(F1 = 0.93)하는 반면, 구조화된 페이지 유형에서는 성능이 급격히 갈라짐(F1 = 0.41-0.84)을 확인했습니다. 이는 기존의 기사 전용 벤치마크에서는 보이지 않았던 사각지대를 드러냅니다. 본 데이터셋은 HTML 소스 파일, 정답 주석, 페이지 유형 레이블 및 베이스라인 결과와 함께 CC-BY-4.0 라이선스로 공개됩니다.

Insights

WCXB: 다중 유형 웹 콘텐츠 추출 벤치마크

요약

핵심 포인트

댓글

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어