본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 01. 12:03

자원 제약이 있는 시각적 에이전트의 공유 상태 협업 실패 모드 진단

요약

저용량 환경에서 모듈형 시각적 에이전트가 공유 메모리를 사용할 때 발생하는 협업 실패 모드를 연구합니다. CoSee 프레임워크를 통해 노이즈 강화와 정책 붕괴라는 두 가지 주요 실패 원인을 규명했습니다.

핵심 포인트

  • 단순 공유 작업 공간은 환각을 해결하기보다 증폭시킬 수 있음
  • 노이즈 강화: 근거 없는 메모리가 증거로 재사용되는 현상
  • 정책 붕괴: 추가 컨텍스트가 모델을 단답형 답변으로 유도하는 현상
  • 명시적 검증 없는 계산량 증가는 성능 저하를 초래할 수 있음

모듈형 시각적 추론 시스템 (Modular visual reasoning systems)은 다단계 협업을 위해 공유 작업 메모리 (shared working memory)에 점점 더 많이 의존하고 있지만, 저용량 환경 (low-capacity regimes)에서 중간 상태 진화 (intermediate state evolution)의 실패 역학은 여전히 충분히 연구되지 않았습니다. 우리는 노이즈 축적 (noise accumulation)의 관점을 통해 약한 학습기 (weak learners, 4B--8B 모델)를 이용한 협업 추론의 실패 모드를 연구합니다. 우리는 문서 시각적 질의응답 (document visual question answering)에서 정보 흐름을 추적하기 위해 읽기-쓰기-검증 (read-write-verify) 루프를 공식화한 감사 프레임워크인 CoSee를 도입합니다. 다중 페이지, 차트 및 웹 기반 벤치마크 전반에 걸쳐, 우리는 직관에 반하는 성능 저하를 발견했습니다: 단순한 공유 작업 공간 (naive shared workspaces)은 환각 (hallucinations)을 해결하기보다 오히려 증폭시키는 경우가 많습니다. 우리는 두 가지 지배적인 실패 모드를 식별했습니다: 근거 없는 메모가 증거로 재사용되는 노이즈 강화 (Noise Reinforcement), 그리고 추가된 컨텍스트가 모델을 불충분하게 명시된 단답형 답변으로 유도하는 정책 붕괴 (Policy Collapse)입니다. 비용-정확도 파레토 프런티어 (cost-accuracy Pareto frontiers)를 사용하여, 우리는 명시적인 검증 (explicit verification) 없이는 계산량 (compute)의 증가가 성능과 부정적인 상관관계를 가질 수 있음을 보여줍니다. 우리의 연구 결과는 자원 제약이 있는 에이전트의 경우, 병목 현상이 추론의 깊이가 아니라 통신 충실도 (communication fidelity)에 있음을 시사하며, 신뢰할 수 있는 모듈형 설계를 위한 추적 수준의 진단과 기계론적 기준선 (mechanistic baseline)을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0