HTMLCure: 브라우저 경험을 상호작용형 HTML을 위한 상태 유도형 수리(State Guided Repair)로 전환하기
요약
HTMLCure는 상호작용형 HTML 페이지의 오류를 진단하고 수리하는 새로운 브라우저 경험 프레임워크입니다. VLM과 실행 궤적을 활용해 상태 기반 수리를 수행하며, 고품질 SFT 데이터셋 구축을 통해 강력한 성능의 모델을 생성합니다.
핵심 포인트
- 상호작용 상태(클릭, 호버 등)를 기반으로 HTML 오류를 진단 및 수리
- VLM에 스크린샷 대신 실행 궤적 기반 키프레임을 제공하여 평가 정확도 향상
- 40K 규모의 고품질 SFT 데이터셋 구축을 통한 모델 성능 최적화
- HTMLCure-27B-Refined 모델이 주요 벤치마크에서 강력한 참조 모델과 대등한 성능 달성
LLM(Large Language Models)은 이제 전체 HTML 페이지를 생성할 수 있지만, 이러한 페이지 중 상당수는 표면적으로만 정확합니다. 즉, 한 번은 렌더링되지만 스크롤, 호버(hover), 클릭, 크기 조정 또는 게임 플레이 시에는 실패합니다. 스크린샷을 통한 평가는 이러한 실패를 놓칠 수 있으며, 필터링 과정에서 여전히 수리가 가능한 많은 페이지를 버리게 됩니다. 우리는 시스템이 HTML과 상호작용한 후 이를 평가하는 브라우저 경험 프레임워크인 HTMLCure를 소개합니다. 평가기는 다양한 뷰포트(viewport)와 상호작용 상태(interaction states)에 걸쳐 페이지를 실행하고, 결정론적 브라우저 증거(deterministic browser evidence)를 기록하며, VLM(Vision Language Model)에 고립된 스크린샷 대신 실행된 궤적(trajectory)에서 선별된 키프레임(keyframes)을 제공합니다. 동일한 상태 신호는 폐쇄 루프 수리 엔진(closed loop repair engine)을 구동합니다. HTMLCure는 현재 페이지를 진단하고, 상태별 특정 수리 제품군(repair family)을 선택하며, 각 후보를 다시 실행한 다음, SFT(Supervised Fine-Tuning)를 위해 품질이 검증된 페이지를 내보냅니다. 97K 프롬프트 코퍼스(corpus)에서, 이는 직접 사용 가능한 시드(seed)를 63,703개의 품질 검증된 페이지 후보 풀로 확장하며, 이를 통해 최종적으로 정제된 40K 페이지의 SFT 세트를 구축합니다. 동일한 백본(backbone)과 학습 레시피(training recipe) 하에서, HTMLCure-27B-Refined는 HTMLBench-400에서 50.6점을 기록하고 45.2%의 결정론적 테스트 케이스 통과율을 달성하여, Kimi-K2.6 및 GPT-5.4와 같은 강력한 참조 모델들과 동일한 성능 대역에 위치합니다. 공개된 MiniAppBench 검증 분할(validation split)에서 이 모델은 평균 81.2점에 도달하여, 기존 27B SFT를 15.3포인트 향상시키고 강력한 참조 시스템의 수준에 근접했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기