arXiv논문2026. 06. 01. 12:03

자원 제약이 있는 시각적 에이전트의 공유 상태 협업 실패 모드 진단

요약

저용량 환경에서 모듈형 시각적 에이전트가 공유 메모리를 사용할 때 발생하는 협업 실패 모드를 연구합니다. CoSee 프레임워크를 통해 노이즈 강화와 정책 붕괴라는 두 가지 주요 실패 원인을 규명했습니다.

핵심 포인트

단순 공유 작업 공간은 환각을 해결하기보다 증폭시킬 수 있음
노이즈 강화: 근거 없는 메모리가 증거로 재사용되는 현상
정책 붕괴: 추가 컨텍스트가 모델을 단답형 답변으로 유도하는 현상
명시적 검증 없는 계산량 증가는 성능 저하를 초래할 수 있음

모듈형 시각적 추론 시스템 (Modular visual reasoning systems)은 다단계 협업을 위해 공유 작업 메모리 (shared working memory)에 점점 더 많이 의존하고 있지만, 저용량 환경 (low-capacity regimes)에서 중간 상태 진화 (intermediate state evolution)의 실패 역학은 여전히 충분히 연구되지 않았습니다. 우리는 노이즈 축적 (noise accumulation)의 관점을 통해 약한 학습기 (weak learners, 4B--8B 모델)를 이용한 협업 추론의 실패 모드를 연구합니다. 우리는 문서 시각적 질의응답 (document visual question answering)에서 정보 흐름을 추적하기 위해 읽기-쓰기-검증 (read-write-verify) 루프를 공식화한 감사 프레임워크인 CoSee를 도입합니다. 다중 페이지, 차트 및 웹 기반 벤치마크 전반에 걸쳐, 우리는 직관에 반하는 성능 저하를 발견했습니다: 단순한 공유 작업 공간 (naive shared workspaces)은 환각 (hallucinations)을 해결하기보다 오히려 증폭시키는 경우가 많습니다. 우리는 두 가지 지배적인 실패 모드를 식별했습니다: 근거 없는 메모가 증거로 재사용되는 노이즈 강화 (Noise Reinforcement), 그리고 추가된 컨텍스트가 모델을 불충분하게 명시된 단답형 답변으로 유도하는 정책 붕괴 (Policy Collapse)입니다. 비용-정확도 파레토 프런티어 (cost-accuracy Pareto frontiers)를 사용하여, 우리는 명시적인 검증 (explicit verification) 없이는 계산량 (compute)의 증가가 성능과 부정적인 상관관계를 가질 수 있음을 보여줍니다. 우리의 연구 결과는 자원 제약이 있는 에이전트의 경우, 병목 현상이 추론의 깊이가 아니라 통신 충실도 (communication fidelity)에 있음을 시사하며, 신뢰할 수 있는 모듈형 설계를 위한 추적 수준의 진단과 기계론적 기준선 (mechanistic baseline)을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

자원 제약이 있는 시각적 에이전트의 공유 상태 협업 실패 모드 진단

요약

핵심 포인트

댓글