arXiv논문2026. 06. 02. 10:14

I-WebGenBench: LLM이 생성한 과학적 웹 애플리케이션의 상호작용성 평가

요약

정적인 논문을 실행 가능한 상호작용형 웹 시스템으로 변환하는 'Paper-to-Interactive-System Agent'를 제안합니다. 이를 평가하기 위한 벤치마크인 I-WebGenBench와 구조화된 생성 프레임워크인 PaperVoyager를 통해 시스템의 품질을 입증했습니다.

핵심 포인트

논문을 동적인 웹 애플리케이션으로 변환하는 에이전트 제안
상호작용성 평가를 위한 19편의 연구 논문 벤치마크 도입
구조화된 생성 프레임워크 PaperVoyager를 통한 품질 향상

시각 언어 모델 (Visual Language Models)의 최근 발전은 복잡한 추론, 도구 사용 (Tool use), 그리고 문서 이해 (Document understanding)를 수행하는 자율 에이전트 (Autonomous agents)를 가능하게 했습니다. 그러나 기존의 문서 에이전트들은 주로 논문을 요약, 웹페이지, 또는 슬라이드와 같은 정적인 결과물로 변환하는 데 그치며, 이는 동적인 메커니즘과 상태 전이 (State transitions)를 포함하는 기술 논문에는 불충분합니다. 본 연구에서는 연구 논문을 실행 가능한 상호작용형 웹 시스템으로 변환하는 '논문-to-상호작용-시스템 에이전트 (Paper-to-Interactive-System Agent)'를 제안합니다. PDF 논문이 주어지면, 에이전트는 논문 이해, 시스템 모델링, 그리고 상호작용형 웹페이지 합성 (Interactive webpage synthesis)을 포함하여 인간의 개입 없이 엔드 투 엔드 (End-to-end) 처리를 수행하며, 이를 통해 사용자가 입력을 조작하고 동적인 동작을 관찰할 수 있도록 합니다. 이 작업을 평가하기 위해, 우리는 전문가가 구축한 상호작용형 시스템을 정답 (Ground truth)으로 쌍을 이룬 19편의 연구 논문 벤치마크를 도입합니다. 나아가 우리는 합성 과정에서 메커니즘과 상호작용 로직을 명시적으로 모델링하는 구조화된 생성 프레임워크인 PaperVoyager를 제안합니다. 실험 결과, PaperVoyager는 생성된 상호작용형 시스템의 품질을 크게 향상시키며, 상호작용형 과학 논문 이해를 위한 새로운 패러다임을 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

I-WebGenBench: LLM이 생성한 과학적 웹 애플리케이션의 상호작용성 평가

요약

핵심 포인트

댓글