arXiv논문2026. 05. 29. 12:55

해리성 정체성: 언어 모델 에이전트는 평판 메커니즘을 위한 근거(Grounding)가 부족하다

요약

언어 모델 에이전트의 가변적이고 해리적인 정체성으로 인해 기존의 평판 기반 신뢰 메커니즘을 적용하기 어렵다는 문제를 제기합니다. 에이전트의 구성 요소 변화가 행동의 불확실성을 초래하므로, 사후적 규제 대신 사전적 프로토콜 기반의 행동 제어 장치가 필요함을 제안합니다.

핵심 포인트

에이전트의 가변적 구성 요소로 인한 정체성 결여 문제
기존 평판 메커니즘의 적용 불가능성 지적
사후적 규제에서 사전적 프로토콜 기반 제어로의 전환 제안
에이전트 신뢰 구축을 위한 새로운 거버넌스 모델 필요성

자율적인 언어 모델 에이전트(Language Model Agents)가 확산되면서, 실제 세계에 영향을 미치는 새로운 에이전트 웹(Agentic Web)이 형성되고 있습니다. 이때 야생의 낯선 에이전트를 신뢰할지, 그리고 그에게 업무를 위임할지를 결정하기 위해 어떤 신뢰성 신호(Credibility Signals)를 사용할 수 있을까요? 자연스러운 거버넌스(Governance)적 직관은 '고객 알기(Know Your Customer, KYC)'나 신용 점수에서부터 '에이전트 알기(Know Your Agent)' 체제에 이르기까지, 인간의 신원 확인 및 평판 메커니즘을 확장하는 것입니다. 그러나 우리는 이러한 비유가 근본적으로 불완전하다고 주장합니다. 평판 메커니즘은 사회적 신호이자 신뢰할 수 있는 행동의 평형을 유지하는 교정적 피드백(Corrective Feedback)으로서 기능하며, 이는 행동의 연속성, 제재 민감도(Sanction Sensitivity), 그리고 비용이 드는 비대체성(Non-fungibility)과 결합된 지속적인 정체성을 전제로 합니다. 하지만 언어 모델 에이전트는 존재론적으로 '해리적(Dissociative)'입니다. 이들은 본질적으로 가변적인 모듈들의 집합체—파운데이션 모델(Foundational Models), 시스템 프롬프트(System Prompts), 도구 액세스 정책(Tool-access Policies), 외부 메모리(External Memory), 그리고 어떤 경우에는 멀티 에이전트 시스템(Multi-agent System) 전체—로 구성되며, 이 중 어느 것이라도 에이전트의 행동을 변화시킬 수 있습니다. 또한 이들은 유동적인 페르소나(Persona)를 지니고 있어 적대적 공격(Adversarial Attack)에 취약하며 제재를 내면화하지 않을 수도 있습니다. 해리성 정체성 장애(Dissociative Identity Disorder)의 법학적 관점을 빌려 설명하자면, 이러한 해리성은 에이전트에게 식별 가능성(Identifiability), 예측 가능성(Predictability), 신뢰성(Credibility), 그리고 재활 가능성(Rehabilitability)—즉, 평판 메커니즘이 유지하고자 하는 바로 그 속성들—에 대한 근거(Grounding)를 결여하게 만들며, 결과적으로 신뢰를 붕괴시킵니다. 우리는 평판과 같이 정체성에 기반한 사후적(Ex post)이고 규제적이며 제재 중심적인 거버넌스는 해리적 에이전트에게 구조적으로 적용 불가능하다고 주장하며, 관찰 가능성(Observability)에 기반한 사전적(Ex ante)이고 구성적이며 프로토콜 기반의 행동 제어 장치(Behavioral Harnesses)로의 전환을 제안합니다.

AI 자동 생성 콘텐츠

원문 바로가기

해리성 정체성: 언어 모델 에이전트는 평판 메커니즘을 위한 근거(Grounding)가 부족하다

요약

핵심 포인트

댓글