WebRISE: MLLM 생성 웹 아티팩트를 위한 요구사항 유도 상태 평가
요약
MLLM이 생성한 웹 아티팩트의 상호작용 능력을 평가하기 위한 새로운 벤치마크인 WebRISE를 제안합니다. 요구사항 유도 상태와 전이를 기반으로 한 상호작용 계약 그래프(ICG)를 통해 기존 방식보다 정밀한 평가가 가능함을 입증했습니다.
핵심 포인트
- 상호작용 계약 그래프(ICG)를 통한 정밀한 웹 아티팩트 평가 방식 제안
- 14개 MLLM 테스트 결과, 모델들의 전이 유효성 및 요구사항 커버리지 한계 확인
- 시각적 품질이 웹 동작의 유효성을 보장하는 지표가 아님을 증명
- 비디오 모달리티가 텍스트 대비 높은 암시적 요구사항 커버리지를 제공함
- ICG 기반 스코어링이 기존 체크포인트 방식보다 오류 탐지율이 월등히 높음
MLLM(Multi-modal Large Language Model)이 생성한 웹 아티팩트(web artifacts)를 위한 기존 벤치마크들은 국소적인 증거를 통해 상호작용을 평가하며, 페이지의 작동 여부를 결정짓는 요구사항 유도 상태(requirement-induced states) 및 전이(transitions)를 놓치고 있습니다. 우리는 구현 방식에 구애받지 않는 브라우저 실행을 위해, 작업 요구사항을 관찰 가능한 상태, 사용자 의도 전이, 그리고 DOM/시각적 단언(assertions)으로 구성된 상호작용 계약 그래프(Interaction Contract Graphs, ICGs)로 컴파일하는 WebRISE를 소개합니다. WebRISE는 5가지 입력 모달리티(Text, Markdown, Sketch, Image, Video)에 걸쳐 442개의 작업을 포괄하며, 사용자가 명시한 기능과 암시적인 제품 수준의 제약 조건을 분리하는 5,495개의 전이와 5,271개의 요구사항 검사를 포함합니다. 14개의 MLLM을 대상으로 테스트한 결과, 가장 강력한 모델조차 전이 유효성(transition validity) 65.6%, 요구사항 커버리지(requirement coverage) 66.3%에 그쳤으며, 시각적 품질이 동작의 대리 지표(proxy)가 되지 못함을 확인했습니다(Markdown 환경에서의 Qwen3.6-35B-A3B: V=80.8이나 T=15.5). 비디오는 가장 강력한 상호작용 신호를 제공하지만(Text 대비 암시적 커버리지 +10.6 pp), 암시적 제약 조건은 여전히 남아 있습니다. 결함 주입(defect injection) 실험 결과, ICG 기반 스코어링은 체크포인트 방식의 평가보다 2~16배 높은 비율로 상태 오류를 탐지하는 것으로 나타났습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기