arXiv논문2026. 06. 30. 11:54

LLM 의미론적 신호 게임 및 메커니즘 설계: 체계적 맹목성, 인식 형성, 그리고 마인드셋 역학

요약

LLM의 의미론적 제어와 기만 가능성을 분석하기 위해 게임 이론을 적용한 '의미론적 신호 게임' 프레임워크를 제안합니다. 수신자의 인식 메커니즘과 체계적 맹목성을 모델링하여, 전략적 상호작용 속에서 안전하고 견고한 인간-AI 의사소통을 설계하는 방법을 다룹니다.

핵심 포인트

LLM의 의미론적 제어를 통한 전략적 상호작용 모델링
수신자의 인식 유형에 따른 체계적 맹목성 공식화
게임 이론적 평형 분석을 통한 전략적 행동 특징 규명
인식 재형성 및 메커니즘 설계를 통한 피싱 공격 감소 입증
에이전트 AI 시스템의 안전한 의사소통을 위한 이론적 토대 제공

대규모 언어 모델 (LLMs)은 자연어를 통해 전략적 상호작용을 중재하는 역할이 점점 늘어나고 있으며, 이로 인해 의미론적 제어 (semantic control)는 의사소통과 기만 (deception)의 핵심 요소가 되었습니다. 본 논문은 송신자 (sender)가 의미론적 제어를 선택하고, LLM이 확률적 메시지 (stochastic message)를 생성하며, 수신자 (receiver)가 인식 의존적 점수 산정 메커니즘 (awareness-dependent scoring mechanism)을 사용하여 메시지를 평가하는 의미론적 신호 게임 (semantic signaling game)을 개발합니다. 수신자의 인식 (awareness)은 어떤 언어적 특징이 지각되고 추론에 사용되는지를 결정하는 유형 (type)으로 모델링되어, 체계적 맹목성 (systematic blindness)에 대한 공식적인 모델을 제공합니다. 이 프레임워크는 프롬프트 기반 제어 (prompt-based control), 통계적 탐지 (statistical detection), 그리고 게임 이론적 평형 분석 (game-theoretic equilibrium analysis)을 연결합니다. 집계된 메시지 점수의 가우시안 근사 (Gaussian approximations)는 우도비 결정 규칙 (likelihood-ratio decision rules)을 가능하게 하며, 완전 베이지안 내쉬 평형 (Perfect Bayesian Nash equilibria)은 전략적 행동을 특징짓습니다. 본 논문은 수신자의 인식을 재형성하고, 기만적인 의미론적 제어에 벌칙을 부과하며, 수신자 집단을 수정하여 양호한 풀링 평형 (benign pooling equilibria)을 유도하는 메커니즘 설계 (mechanism-design) 접근 방식을 추가로 개발합니다. 수치 실험을 통해 가우시안 근사를 검증하고, 인식 순서 효과 (awareness-ordering effects)를 정량화하며, 적응형 적대자 (adaptive adversaries) 하에서의 마인드셋 역학 (mindset dynamics)을 분석하고, 인식 형성 (awareness shaping)과 가드레일 비용 (guardrail costs)이 성공적인 피싱 공격을 어떻게 감소시키는지 입증합니다. 제안된 프레임워크는 에이전트 AI 시스템 (agentic AI systems)에서 전략적 언어 매개 상호작용을 분석하기 위한 원칙적인 토대를 제공하며, 견고하고 안전한 인간-AI 의사소통 설계를 위한 새로운 도구를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 의미론적 신호 게임 및 메커니즘 설계: 체계적 맹목성, 인식 형성, 그리고 마인드셋 역학

요약

핵심 포인트

댓글