본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 17. 11:51

LongWebBench: 장기적 설정(Long-Horizon Settings)에서의 구조적 및 기능적 웹페이지 생성 평가

요약

장기적(Long-Horizon) 웹페이지 생성 능력을 평가하기 위한 새로운 벤치마크인 LongWebBench를 제안합니다. 기존의 단일 화면 중심 평가를 넘어, 구조적 충실도와 기능적 상호작용을 다각도로 검증하는 프로토콜을 포함합니다.

핵심 포인트

  • 장기 웹페이지의 구조적 일관성 및 기능적 상호작용 평가 벤치마크 제안
  • VLM 기반 메트릭과 DOM 증강 에이전트 파이프라인을 통한 검증
  • 웹페이지가 길어질수록 구조적 충실도와 실행 가능성이 저하됨을 확인
  • 시각적 유사성을 넘어 실행 가능한 상호작용 중심의 평가 필요성 강조

최근 시각-언어 모델(Vision-Language Models, VLMs)은 시각적 입력으로부터 웹페이지를 생성하는 데 있어 유망한 진전을 보여주었으나, 기존의 평가 방식은 주로 짧고, 단일 화면이며, 대체로 정적인 웹페이지에 집중되어 있습니다. 우리는 구조적 및 기능적 관점 모두에서 장기적(long-horizon) 웹페이지 생성을 평가하기 위한 벤치마크인 LongWebBench를 소개합니다. LongWebBench는 구조적 충실도(structural fidelity) 평가를 위한 490개의 실제 장기 웹페이지와 기능적 평가를 위한 129개 웹페이지에 걸친 507개의 목표 지향적 상호작용(goal-oriented interaction) 태스크를 포함합니다. 이는 두 가지 상호 보완적인 프로토콜을 채택합니다: 장거리 구조적 일관성(long-range structural coherence)을 평가하기 위한 다차원 VLM 기반 메트릭과, 엔드투엔드(end-to-end) 기능 검증을 위한 DOM 증강 에이전트 기반 파이프라인입니다. 우리는 나아가 인간 일치도 분석(human agreement analysis)을 통해 자동 평가 프로토콜을 조사합니다. 단일 이미지 및 다중 이미지 설정 하에서 최첨단 오픈 소스 및 독점 VLM을 대상으로 한 실험 결과, 웹페이지 길이가 길어질수록 구조적 충실도가 저하되는 반면, 시각적으로 그럴듯한 생성물은 실행 가능한 다단계 상호작용을 지원하지 못하는 경우가 많음을 보여줍니다. 이러한 결과는 실행 가능한 상호작용을 핵심 기준으로 삼아, 시각적 유사성을 넘어 긴 웹페이지 생성을 평가할 필요가 있음을 강조합니다. 우리의 코드와 데이터는 https://github.com/zheny2751-dotcom/LongWebBench 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0