arXiv논문2026. 05. 27. 12:19

QUACK: 멀티모달 사회적 추론 에이전트의 전달된 지식에 대한 질문, 이해 및 감사

요약

멀티모달 사회적 추론 에이전트의 언어적 근거성을 평가하기 위한 오픈 소스 프레임워크 QUACK을 소개합니다. 게임 결과, 행동 궤적, 발화 일관성을 통해 에이전트의 환각과 기만, 언어-행동 불일치를 자동으로 검증합니다.

핵심 포인트

멀티모달 사회적 추론 에이전트 평가를 위한 QUACK 프레임워크 공개
진술 검증 파이프라인을 통한 공간적 환각 및 기만 붕괴 자동 식별
최첨단 VLM조차 공간적 주장의 15.1%에서 환각 발생 확인
에이전트의 언어와 실제 행동 간의 불일치 문제 규명

사회적 추론 게임(Social deduction games)은 대규모 언어 모델 (LLM) 에이전트의 추론, 기만, 협력 및 신념 모델링 (belief modeling)을 조사하기 위한 인기 있는 테스트베드가 되었습니다. 그러나 대부분의 환경은 승률과 같은 게임 결과로만 점수가 매겨지며 주로 텍스트 전용 상호작용에 머물러 있어, 에이전트의 언어가 실제로 자신이 인지하고 수행한 것에 근거(grounded)하고 있는지, 또는 행동의 근저에 있는 실패 모드(failure modes)를 식별하는 것이 어렵습니다. 이러한 격차를 해소하기 위해, 우리는 멀티모달 사회적 추론에서 에이전트 언어의 근거성을 감사하기 위한 오픈 소스 환경 및 평가 프레임워크인 QUACK을 소개합니다. QUACK은 게임 결과, 행동 궤적(behavioral trajectories), 그리고 발화 수준의 일관성(utterance-level consistency)이라는 세 가지 수준에서 에이전트를 평가합니다. 핵심 기능인 진술 검증 파이프라인(Statement Verification Pipeline)은 엔진 로그로부터 각 에이전트의 실제 궤적(ground-truth trajectory)을 재구성하고 모든 토론 주장(discussion claim)을 이에 대해 검사하여, 공간적 환각(spatial hallucination), 근거 없는 비난(unsupported accusation), 기만 붕괴(deception collapse), 그리고 언어-행동 불일치(language-action inconsistency)를 자동으로 표시합니다. 동질적(homogeneous) 및 교차 모델 적대적(cross-model adversarial) 설정 모두에서 세 가지 최첨단 VLM을 평가한 결과, 가장 강력한 에이전트조차 검증 가능한 공간적 주장의 15.1%를 환각하고, 절반 이상의 비난을 근거 없이 수행한다는 것을 발견했습니다. 우리는 전체 엔진, 평가 프레임워크, 툴킷 및 로그를 https://github.com/AAAAA-Academia-Attractions/QUACK 에서 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

QUACK: 멀티모달 사회적 추론 에이전트의 전달된 지식에 대한 질문, 이해 및 감사

요약

핵심 포인트

댓글