본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 11:54

LLM 의미론적 신호 게임 및 메커니즘 설계: 체계적 맹목성, 인식 형성, 그리고 마인드셋 역학

요약

LLM의 의미론적 제어와 기만 가능성을 분석하기 위해 게임 이론을 적용한 '의미론적 신호 게임' 프레임워크를 제안합니다. 수신자의 인식 메커니즘과 체계적 맹목성을 모델링하여, 전략적 상호작용 속에서 안전하고 견고한 인간-AI 의사소통을 설계하는 방법을 다룹니다.

핵심 포인트

  • LLM의 의미론적 제어를 통한 전략적 상호작용 모델링
  • 수신자의 인식 유형에 따른 체계적 맹목성 공식화
  • 게임 이론적 평형 분석을 통한 전략적 행동 특징 규명
  • 인식 재형성 및 메커니즘 설계를 통한 피싱 공격 감소 입증
  • 에이전트 AI 시스템의 안전한 의사소통을 위한 이론적 토대 제공

대규모 언어 모델 (LLMs)은 자연어를 통해 전략적 상호작용을 중재하는 역할이 점점 늘어나고 있으며, 이로 인해 의미론적 제어 (semantic control)는 의사소통과 기만 (deception)의 핵심 요소가 되었습니다. 본 논문은 송신자 (sender)가 의미론적 제어를 선택하고, LLM이 확률적 메시지 (stochastic message)를 생성하며, 수신자 (receiver)가 인식 의존적 점수 산정 메커니즘 (awareness-dependent scoring mechanism)을 사용하여 메시지를 평가하는 의미론적 신호 게임 (semantic signaling game)을 개발합니다. 수신자의 인식 (awareness)은 어떤 언어적 특징이 지각되고 추론에 사용되는지를 결정하는 유형 (type)으로 모델링되어, 체계적 맹목성 (systematic blindness)에 대한 공식적인 모델을 제공합니다. 이 프레임워크는 프롬프트 기반 제어 (prompt-based control), 통계적 탐지 (statistical detection), 그리고 게임 이론적 평형 분석 (game-theoretic equilibrium analysis)을 연결합니다. 집계된 메시지 점수의 가우시안 근사 (Gaussian approximations)는 우도비 결정 규칙 (likelihood-ratio decision rules)을 가능하게 하며, 완전 베이지안 내쉬 평형 (Perfect Bayesian Nash equilibria)은 전략적 행동을 특징짓습니다. 본 논문은 수신자의 인식을 재형성하고, 기만적인 의미론적 제어에 벌칙을 부과하며, 수신자 집단을 수정하여 양호한 풀링 평형 (benign pooling equilibria)을 유도하는 메커니즘 설계 (mechanism-design) 접근 방식을 추가로 개발합니다. 수치 실험을 통해 가우시안 근사를 검증하고, 인식 순서 효과 (awareness-ordering effects)를 정량화하며, 적응형 적대자 (adaptive adversaries) 하에서의 마인드셋 역학 (mindset dynamics)을 분석하고, 인식 형성 (awareness shaping)과 가드레일 비용 (guardrail costs)이 성공적인 피싱 공격을 어떻게 감소시키는지 입증합니다. 제안된 프레임워크는 에이전트 AI 시스템 (agentic AI systems)에서 전략적 언어 매개 상호작용을 분석하기 위한 원칙적인 토대를 제공하며, 견고하고 안전한 인간-AI 의사소통 설계를 위한 새로운 도구를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0