도메인을 넘어: 전이 가능한 상호작용 패턴을 통한 웹 기술 재사용
요약
웹 에이전트의 지연 시간과 비용을 줄이기 위해 상호작용 패턴을 재사용하는 SkillMigrator를 제안합니다. 레이아웃 구조 매칭을 통해 특정 사이트에 국한되지 않고 기술을 전이할 수 있는 TIP 방식을 도입했습니다.
핵심 포인트
- SkillMigrator는 레이아웃 유사도를 기반으로 웹 기술을 검색하고 접지함
- 전이 가능한 상호작용 패턴(TIP)을 통해 사이트 간 기술 재사용성 향상
- WebArena 및 Mind2Web 벤치마크에서 LLM 액션 수를 8-10% 감소시킴
- 저수준 프리미티브 대신 고수준 웹 기술을 활용하여 효율성 증대
대규모 언어 모델 (LLM) 웹 에이전트는 보통 도구 호출기 (tool callers)로 배포됩니다. 즉, 매 턴마다 모델은 새로운 페이지 관찰값 (page observation)을 읽고 하나의 구조화된 도구 액션 (tool action)을 생성합니다. 모든 액션이 저수준 프리미티브 (low-level primitive)일 경우, 작업 범위 (horizons)가 빠르게 늘어나며 정책 대상 LLM 완성 (policy-facing LLM completions) 또한 늘어나, Mind2Web 및 WebArena와 같은 벤치마크에서 지연 시간 (latency)과 비용을 지배하게 됩니다. 따라서 최근 시스템들은 반복되는 상호작용 파편들을 웹 기술 (web skills)로 래핑합니다. 이는 성공적인 궤적 (trajectories)이나 유도된 프로그램 (induced programs)으로부터 구축된 호출 가능한 도구로, 단 한 번의 호출로 여러 프리미티브를 대체할 수 있습니다. 그러나 기존의 기술 라이브러리 (skill libraries)는 여전히 주로 지시문 유사성 (instruction similarity)이나 거친 사이트 메타데이터 (coarse site metadata)에 의해 트리거되며, 이는 테스트용 사이트 (held-out sites)에서 낮은 기술 재사용성을 초래하고 잠재적인 단계 및 토큰 감소 효과를 충분히 활용하지 못하게 만듭니다. 우리는 특정 요소 참조 (element references) 대신 레이아웃 구조 (layout structure)를 매칭함으로써 재사용 가능한 웹 기술을 학습하고 사이트 간에 이를 전이하는 에이전트인 SkillMigrator를 제안합니다. 유도된 각 기술은 전이 가능한 상호작용 패턴 (Transferable Interaction Pattern, TIP)으로 저장됩니다. 즉, 기술과 함께 유도 시점의 스냅샷에 대한 구조적 스케치 (structural sketch)가 쌍으로 저장됩니다. 테스트 시점에 SkillMigrator는 레이아웃 유사도에 따라 TIP를 검색하고, 라이브 페이지 상에서 그 참조를 접지 (grounding)합니다. 나머지 스택은 표준적입니다. 안정적인 참조를 가진 접근성 스냅샷 (accessibility-snapshot) 관찰값과, 프리미티브 및 기술 호출을 포함한 고정된 도구 호출 (tool calling) 방식을 사용합니다. 최신 기술 (state-of-the-art) 방식들과 비교했을 때, SkillMigrator는 동일한 성공률 조건에서 WebArena와 Mind2Web 모두에서 성공적인 궤적의 평균 LLM-액션 수를 8-10% 감소시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기