StepGuard: 단일 단계 보정(Single-Step Calibration)을 통한 웹 내비게이션 보호
요약
StepGuard는 웹 내비게이션 에이전트의 단일 단계 오류와 보상 불일치 문제를 해결하기 위한 새로운 프레임워크입니다. DDPO와 CANR 메커니즘을 통해 내비게이션과 답변의 정확도를 높여 SOTA 성능을 달성했습니다.
핵심 포인트
- DDPO를 통한 내비게이션과 답변 모드 간의 동적 전환
- CANR 메커니즘으로 단계별 신뢰도 추정 및 성찰 트리거
- 대조적 보상을 활용한 에이전트의 자기 수정 능력 강화
- 표준 웹 내비게이션 벤치마크에서 SOTA 성능 입증
웹 내비게이션(Web navigation)은 에이전트가 자연어 목표를 따르고, 웹 페이지와 상호작용하며, 정확한 답변을 생성할 것을 요구합니다. 최근의 발전은 시각-언어 모델(Vision-language models)과 강화학습(Reinforcement learning)을 활용하고 있지만, 기존 방법들은 보상 불일치(Reward misalignment)와 오류 전파(Error propagation)로 인해 여전히 단일 단계 취약성(Single-step fragility) 문제를 겪고 있습니다. 보상 얽힘(Reward entanglement) 문제를 해결하기 위해, 우리는 탐색을 위한 내비게이션 우선(Navigation-first) 모드와 질의응답을 위한 답변 우선(Answer-first) 모드 사이를 동적으로 전환하여 보상 충돌을 완화하는 동적 이중 정책 최적화(Dynamic Dual-Policy Optimization, DDPO)를 설계했습니다. 단일 단계 오류를 보정하기 위해, 우리는 단계별 신뢰도(Confidence)를 추정하고, 필요할 때만 성찰(Reflection)을 트리거하며, 대조적 보상(Contrastive rewards)을 사용하여 자기 수정(Self-correction)을 장려함으로써 단일 단계 부정확성을 보정하는 메커니즘인 신뢰도 가이드 적응형 내비게이션 성찰(Confidence-Guided Adaptive Navigation Reflection, CANR)을 제안합니다. 위 요소들을 주요 구성 요소로 하여, 우리는 최종적으로 단일 단계 보정을 통해 웹 내비게이션을 보호하는 새로운 프레임워크인 StepGuard를 개발했습니다. 실험을 통해 우리의 접근 방식이 내비게이션 및 답변 정확도를 크게 향상시키며, 표준 웹 내비게이션 벤치마크에서 새로운 SOTA(State-of-the-art) 성능을 달성함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기