arXiv논문2026. 06. 30. 11:23

실시간 음성 질의응답을 포함한 리허설 기반 멀티 에이전트 라이브 제품 시연

요약

실시간 음성 질의응답과 내레이션이 포함된 라이브 제품 시연을 자동 생성하는 멀티 에이전트 시스템 Rhetor를 제안합니다. 웹 애플리케이션과 소스 코드를 분석하여 UI 탐색과 스크립트를 동기화하는 혁신적인 아키텍처를 선보입니다.

핵심 포인트

실시간 음성 질의응답이 가능한 리허설 기반 멀티 에이전트 시스템 Rhetor 제안
UI 탐색과 소스 코드 분석을 결합한 교차 모달 특징 표현 기술 적용
브라우저 동작과 내레이션 세그먼트를 연결하는 런타임 동기화 메커니즘 구현
Excalidraw 등 실제 애플리케이션을 통한 높은 로케이터 실행률 및 성능 검증

라이브 제품 시연(Live product demonstrations)은 소프트웨어 조직에서 반복적으로 발생하는 고비용 활동입니다. 인간 발표자는 기능을 선택하고, 실행 중인 애플리케이션에서 그에 상응하는 상호작용을 실행하며, 이를 일관되게 설명하고, 실시간으로 질문에 답변해야 합니다. 기존의 자동화 방식은 이러한 과정의 일부만을 다룹니다. 범용 브라우저 에이전트(generalist browser agents)는 지시 조건부 작업 완료(instruction-conditioned task completion)를 목표로 하며, 데모 비디오 도구는 질문이 불가능하고 인터페이스 변화(interface drift) 시 조용히 작동이 중단되는 고정된 MP4 결과물만을 생성합니다.

우리는 실행 중인 웹 애플리케이션과 해당 소스 코드 저장소(source-code repository)를 입력으로 받아, 세그먼트 동기화된 내레이션(narration)과 실시간 음성 질의응답(real-time voice question answering)을 갖춘 리허설된 라이브 시연을 생성하는 멀티 에이전트 시스템인 Rhetor를 제안합니다. 아키텍처 측면의 기여는 다음과 같습니다: UI 탐색과 소스 코드 분석을 이산적인 포커스 티어(discrete focus tiers)로 태깅된 특징으로 병합하는 교차 모달 특징 표현(cross-modal feature representation), 탐색 중에 관찰된 UI 요소로 제한되고 다중 전략 시맨틱 로케이터(multi-strategy semantic locators)를 통해 실행되는 접지된 스크립터(grounded scripter), 명시적인 수렴(convergence) 및 내레이션 전용 세그먼트로의 우아한 성능 저하(graceful degradation)를 포함하는 발표 전 리허설 루프, 그리고 각 브라우저 동작을 해당 내레이션 세그먼트의 오디오 종료 이벤트(audio-end event)에 연결하는 런타임 동기화 불변량(runtime synchronization invariant)입니다.

퍼블릭 도메인 화이트보드 애플리케이션인 Excalidraw를 포함하여 배포된 4개의 애플리케이션에 대해 6회의 파이프라인 세션을 수행한 결과, 리허서(rehearser)의 내부 로케이터 실행률(locator-firing rate, sigma-bar)은 147개의 스크립트된 동작에 대해 0.31-1.00 범위를 나타냈습니다. 상당한 작업량(53개 동작, 전체 티어 차별화)에서 sigma-bar는 약 0.92였으며, 퍼블릭 도메인 참조 지점에서는 로케이터 복구(locator-repair) 단계가 반복 2회 만에 sigma-bar = 1.00으로의 수렴을 이끌어냈습니다. 또한, 우리는 사례 연구를 넘어 각 설계 선택이 긍정적으로 기여하는지 확인할 수 있도록 6개의 애플리케이션 카테고리에 걸친 10개 지표의 벤치마크 프로토콜을 정의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

실시간 음성 질의응답을 포함한 리허설 기반 멀티 에이전트 라이브 제품 시연

요약

핵심 포인트

댓글