ThinkDeception: 해석 가능한 멀티모달 기만 탐지를 위한 점진적 강화학습 프레임워크
요약
ThinkDeception은 해석 가능한 멀티모달 기만 탐지를 위한 새로운 프레임워크를 제안합니다. MLLM과 점진적 강화학습(VAC-GRPO)을 활용하여 모달 간 불일치를 포착하고, 단계별 사고의 사슬(CoT)을 통해 투명한 추론 과정을 제공합니다.
핵심 포인트
- MLLM을 활용하여 기만 탐지를 인지 추론 과정으로 변환
- 시각-오디오 일관성 기반의 VAC-GRPO 강화학습 전략 제안
- 난이도별 계층화된 학습을 통한 점진적 커리큘럼 스케줄링 적용
- 기존 SOTA 모델 대비 탐지 정확도 및 근거 품질 향상 입증
멀티모달 기만 탐지 (Multimodal deception detection)는 사기 의도를 식별하는 데 매우 중요하지만, 기존 방식들은 주로 엔드 투 엔드 (end-to-end) 블랙박스 패러다임에 의존하고 있습니다. 이러한 방법들은 투명한 추론 경로를 제공하지 못하는 심각한 해석 가능성 (interpretability) 부족 문제를 겪고 있으며, 기만적 행동에 내재된 미묘한 교차 모달 불일치 (cross-modal inconsistencies)를 명시적으로 포착하는 데 어려움을 겪습니다. 이러한 한계를 초월하기 위해, 우리는 새롭고 해석 가능한 멀티모달 기만 탐지 프레임워크인 ThinkDeception을 제안합니다. 선구적인 노력으로서, 이 프레임워크는 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)을 이 분야에 도입하여, 기만 탐지를 전통적인 이진 분류 (binary classification) 작업에서 명시적인 인지 추론 과정으로 변환합니다. 최초로 세심하게 주석이 달린 단계별 멀티모달 사고의 사슬 (Chain of Thought, CoT) 데이터셋을 활용하여, 우리는 기초 모델인 ThinkDeception Base를 개발하였으며, 기만을 해독하는 데 있어 모달 불일치 (modal inconsistency)의 결정적인 역할을 경험적으로 검증했습니다. 이 토대 위에서 우리의 핵심 혁신은 점진적 학습 전략을 갖춘 시각-오디오 일관성 그룹 상대 정책 최적화 (Visual-Audio Consistency Group Relative Policy Optimization, VAC-GRPO)를 제안하는 데 있습니다. 표준 GRPO와 달리, 우리는 학습 데이터를 네 가지 점진적 난이도 단계로 계층화하여, 모델이 심리학에 기반한 '쉬움에서 어려움'으로의 인지적 전환을 거치도록 안내합니다. 이 동적 커리큘럼 스케줄러 (curriculum scheduler)를 다차원적이고 프로세스 인지적인 보상 메커니즘 (process-aware reward mechanism) 및 성찰적 학습 패러다임 (reflective learning paradigm)과 혁신적으로 결합함으로써, 우리는 모델의 전반적인 추론 품질을 크게 향상시켰습니다. 주요 벤치마크에 대한 광범위한 실험을 통해 ThinkDeception이 새로운 SOTA (State-of-the-Art)를 구축하였으며, 탐지 정확도와 근거 품질 모두에서 기존 방법들을 크게 능가함을 입증했습니다. 궁극적으로, 본 연구는 기만 탐지 분야를 해석 가능한 멀티모달 인지 추론 방향으로 성공적으로 이끌고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기