컴퓨터 사용 에이전트를 위한 불확실성 정량화 (Uncertainty Quantification): 시각-언어 모델 (VLM) 및 GUI
요약
컴퓨터 사용 에이전트의 신뢰성을 높이기 위한 불확실성 정량화(UQ) 연구와 새로운 벤치마크인 Argus를 소개합니다. 다양한 VLM과 데이터셋 환경에서 UQ 방법론의 안정성을 분석하고, 모델 및 인터페이스 변화에 따른 성능 전이 특성을 규명합니다.
핵심 포인트
- GUI 에이전트를 위한 교차 체제 벤치마크 Argus 제시
- UQ 순위는 데이터셋 간에는 안정적이나 모델/인터페이스 변경 시 저하됨
- 폐쇄형 소스 모델의 UQ는 외삽보다 타겟 모델에서의 재순위 매기기가 권장됨
- 은닉 상태 및 밀도 기반 방법론이 오픈 웨이트 모델에서 가장 안정적임
- 단순 점수 판별을 넘어 컨포멀 클릭 영역 확보를 통한 안전성 강화 필요
컴퓨터 사용 에이전트는 시각-언어 모델 (Vision-Language Model, VLM)의 예측을 실행 가능한 GUI 클릭으로 변환하므로, 거부 (rejection), 교정 (calibration), 미스 심각도 순위 지정 (miss-severity ranking), 그리고 공간적 안전 영역 (spatial safety regions) 확보를 위해 신뢰할 수 있는 불확실성 추정 (uncertainty estimates)이 필수적입니다. 그러나 이러한 에이전트를 위한 사후 불확실성 정량화 (Post-hoc Uncertainty Quantification, UQ)에 관한 증거는 고립된 모델 및 데이터셋 쌍에 걸쳐 파편화되어 있어, 에이전트, 벤치마크 또는 관찰 가능한 인터페이스가 변경될 때 UQ 순위가 안정적으로 유지되는지 여부가 불분명합니다. 본 연구에서는 단일 단계 실행 가능한 GUI 그라운딩 (GUI grounding)에 대한 사후 UQ를 위한 교차 체제(cross-regime) 벤치마크인 Argus를 제시합니다. Argus는 4개의 VLM 에이전트와 4개의 데이터셋에 걸친 27개 방법론의 오픈 웨이트 (open-weight) 매트릭스와, 로짓 (logits), 은닉 상태 (hidden states), 어텐션 맵 (attention maps)을 사용할 수 없는 3개의 프런티어 벤더 (frontier vendors)에 걸친 8개 방법론의 폐쇄형 소스 (closed-source) 매트릭스로 구성됩니다. 평가된 방법론에는 로짓 기반 점수 (logit-based scores), 샘플링 및 일관성 측정 (sampling and consistency measures), 은닉 상태 및 밀도 추정기 (hidden-state and density estimators; Mahalanobis, SAPLMA), 어텐션 기반 점수 (attention-based scores), P(True) 및 언어화된 신뢰도 프롬프팅 (verbalised-confidence prompting), 그리고 분할 컨포멀 예측 (split-conformal prediction)이 포함됩니다. 주요 발견은 선택적 전이 (selective transfer)입니다. UQ 순위는 고정된 모델에 대해 데이터셋 간에는 안정적이지만, 모델 클래스와 관찰 가능한 인터페이스에 따라 저하됩니다. 은닉 상태 및 밀도 방법론은 가장 안정적인 오픈 웨이트 계열인 반면, CoCoA-1MCA, Focus, 샘플링 기반 점수, 그리고 언어화된 자기 평가 (verbalised self-assessment)는 특정 체제에서 우수한 성능을 보입니다. 모델 내 순위 전이 (Within-model ranking transfer)는 강력하지만 (Spearman rho 최대 0.969), 폐쇄형 소스 벤더로의 계층 간 전이 (cross-tier transfer)는 평균 +0.08에 불과하므로, 폐쇄형 소스 UQ는 외삽 (extrapolated)하기보다는 타겟에서 다시 순위를 매겨야 합니다. 컨포멀 클릭 영역 (Conformal click regions) 연구 결과, 점수 수준의 판별만으로는 배포에 충분하지 않음이 나타났습니다. 플러그인 UQ가 교정되었을 때 국소 가중 디스크 (locally weighted disks)는 반경을 40-60% 축소하지만, 교정-테스트 (calibration-test) 또는 인터페이스 불일치 상황에서는 커버리지 (coverage)가 저하됩니다. 우리는 GUI 에이전트의 체제 인식 UQ 선택을 위해 항목별 기록, 교정/테스트 분할, UQ 점수 및 분석 스크립트를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기