arXiv논문2026. 06. 17. 11:51

LongWebBench: 장기적 설정(Long-Horizon Settings)에서의 구조적 및 기능적 웹페이지 생성 평가

요약

장기적(Long-Horizon) 웹페이지 생성 능력을 평가하기 위한 새로운 벤치마크인 LongWebBench를 제안합니다. 기존의 단일 화면 중심 평가를 넘어, 구조적 충실도와 기능적 상호작용을 다각도로 검증하는 프로토콜을 포함합니다.

핵심 포인트

장기 웹페이지의 구조적 일관성 및 기능적 상호작용 평가 벤치마크 제안
VLM 기반 메트릭과 DOM 증강 에이전트 파이프라인을 통한 검증
웹페이지가 길어질수록 구조적 충실도와 실행 가능성이 저하됨을 확인
시각적 유사성을 넘어 실행 가능한 상호작용 중심의 평가 필요성 강조

최근 시각-언어 모델(Vision-Language Models, VLMs)은 시각적 입력으로부터 웹페이지를 생성하는 데 있어 유망한 진전을 보여주었으나, 기존의 평가 방식은 주로 짧고, 단일 화면이며, 대체로 정적인 웹페이지에 집중되어 있습니다. 우리는 구조적 및 기능적 관점 모두에서 장기적(long-horizon) 웹페이지 생성을 평가하기 위한 벤치마크인 LongWebBench를 소개합니다. LongWebBench는 구조적 충실도(structural fidelity) 평가를 위한 490개의 실제 장기 웹페이지와 기능적 평가를 위한 129개 웹페이지에 걸친 507개의 목표 지향적 상호작용(goal-oriented interaction) 태스크를 포함합니다. 이는 두 가지 상호 보완적인 프로토콜을 채택합니다: 장거리 구조적 일관성(long-range structural coherence)을 평가하기 위한 다차원 VLM 기반 메트릭과, 엔드투엔드(end-to-end) 기능 검증을 위한 DOM 증강 에이전트 기반 파이프라인입니다. 우리는 나아가 인간 일치도 분석(human agreement analysis)을 통해 자동 평가 프로토콜을 조사합니다. 단일 이미지 및 다중 이미지 설정 하에서 최첨단 오픈 소스 및 독점 VLM을 대상으로 한 실험 결과, 웹페이지 길이가 길어질수록 구조적 충실도가 저하되는 반면, 시각적으로 그럴듯한 생성물은 실행 가능한 다단계 상호작용을 지원하지 못하는 경우가 많음을 보여줍니다. 이러한 결과는 실행 가능한 상호작용을 핵심 기준으로 삼아, 시각적 유사성을 넘어 긴 웹페이지 생성을 평가할 필요가 있음을 강조합니다. 우리의 코드와 데이터는 https://github.com/zheny2751-dotcom/LongWebBench 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LongWebBench: 장기적 설정(Long-Horizon Settings)에서의 구조적 및 기능적 웹페이지 생성 평가

요약

핵심 포인트

댓글