본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 04. 12:04

계획, 관찰, 복구: 선제적 절차적 보조를 위한 벤치마크 및 아키텍처

요약

사용자의 절차적 작업을 실시간으로 보조하는 선제적 멀티모달 어시스턴트 시스템을 위한 새로운 벤치마크와 아키텍처를 제안합니다. EgoProactive 데이터셋과 Pro2Bench 벤치마크를 통해 계획 외 상황에서의 복구 능력을 검증하며, Llama 4 기반의 향상된 성능을 입증했습니다.

핵심 포인트

  • EgoProactive: 계획 외 상황과 복구 단계를 포함한 대규모 데이터셋 공개
  • Pro2Bench: 기존 5개 벤치마크를 선제적 안내 스키마로 확장
  • 분리된 플래너-상호작용 아키텍처 제안
  • Llama 4 기반 모델이 주요 상용 모델 대비 우수한 개입 품질 달성

우리는 사용자에게 절차적 작업(procedural task)에 대한 실시간 단계별 안내를 제공하며, 언제 개입할지(when to interrupt)와 어떻게 코칭할지(how to coach)를 자율적으로 결정하는 선제적 멀티모달(multi-modal) 어시스턴트 시스템을 구상합니다. 그러나 실제 상황, 특히 사용자가 예상된 단계 순서에서 벗어나는 흔한 경우를 반영하는 대규모 교차 도메인(cross-domain) 벤치마크의 부재로 인해 발전이 제한되어 왔습니다. 우리는 네 가지 기여를 통해 이 격차를 해소합니다: extbf{(1)} 명시적인 계획 외(Out-of-Plan, OOP) 주석과 복구 단계(recovery steps)를 포함하여 선제적 절차적 보조를 위한 대규모 웨어러블-1인칭 시점(wearable-egocentric) 데이터셋인 extbf{EgoProactive}를 공개합니다; extbf{(2)} 기존의 다섯 가지 벤치마크(Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M)를 통일된 선제적 안내 스키마(proactive-guidance schema) 하에 extbf{Pro extsuperscript{2}Bench}로 확장합니다; extbf{(3)} 절차적 상태(procedural state), 시각적 단서(visual cues), 그리고 복구 주입(recovery injection)에 특화된 extbf{분리된 플래너-상호작용 아키텍처(decoupled planner--interaction architecture)}를 제안합니다; extbf{(4)} 모델 제품군 간에 전이 가능한 사후 학습(post-training) 레시피를 도입하며, 이는 Llama 4 및 Qwen-3.6-VL에 대한 교차 백본(cross-backbone) 복제를 통해 검증되었습니다. 광범위한 실험을 통해, 우리가 학습시킨 Llama 4 시스템은 6개 데이터셋 모두에서 강력한 독점적 베이스라인(Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) 및 오픈 웨이트(open-weight) 베이스라인(Qwen3 VL 235B)보다 객관적인 개입 품질을 실질적으로 향상시켰습니다. 오라클 플랜(Oracle-plan) 실험은 계획의 품질이 통제되었을 때, 학습된 듀플렉스(duplex) 모델이 고품질의 안내를 생성하며 계획 외(Out-of-Plan) 복구에서 큰 이득을 얻음을 추가로 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0